Massimo volume.jpg
Modulo Youden
di Statistics for Data Analysis

Il nuovo modulo Youden ti aiuta a determinare il cut-off ottimale di una curva ROC, una tecnica molto utile che mostra le prestazioni di classificazione a diverse soglie di probabilità.

Questa tecnica è molto usata in medicina, radiologia, psicologia, meteorologia, veterinaria e fisica.

Richiamo alla Curva ROC

La curva ROC (Receiver Operating Characteristic) è un grafico che mette in relazione la sensibilità e la specificità di un test diagnostico al variare di un valore soglia, detto anche di cut-off.

 

L’analisi della curva ROC di un test diagnostico permette di:

  • Valutare l’accuratezza

  • Determinare il valore di cut-off più appropriato

  • Confrontare le performance di due o più test

 

Per assaggiare l’importanza dell’indice di Youden, richiameremo prima alcuni concetti di base, essenziali per comprendere l’argomento.​

 

Per praticità, riportiamo di seguito alcuni concetti fondamentali:

  • l’obiettivo di un test è classificare correttamente un paziente (ad esempio presenza o assenza di una specifica malattia)

  • i casi classificati erroneamente vengono chiamati falsi positivi e falsi negativi

  • la sensibilità di un test diagnostico è la proporzione di casi veri positivi che vengono classificati in maniera corretta (ad esempio, in medicina è la capacità di classificare correttamente i soggetti malati).

  • la specificità di un test diagnostico è la proporzione di veri negativi che sono classificati correttamente (ad esempio, in medicina è la probabilità di classificare correttamente i sani).

La Curva ROC e diagnostiche

La curva ROC è uno strumento molto utile per riassumere in un unico grafico le performance di un test diagnostico al variare del valore di cut-off.

Il grafico di una curva ROC è formato da:

  • i valori di sensibilità, cioè la proporzione dei veri postivi del test sull’asse delle ordinate (asse y)

  • i valori di specificità, cioè la proporzione dei falsi positivi del test sull’asse delle ascisse (asse x)

  • all’interno del grafico viene rappresentato ogni valore di cut-off, per ognuno dei quali si può leggere il valore della sensibilità (sull’asse y) e quello della specificità (sull’asse x)

  • unendo i vari punti si ottiene una curva con andamento “a scaletta”, la curva ROC.

 

L’area sottostante alla curva ROC (AUC, acronimo di “Area Under the Curve”) è una misura di accuratezza diagnostica. Per semplicità, potremmo dire che se un ipotetico nuovo test discriminasse perfettamente i malati dai sani, l’area della curva ROC avrebbe valore 1, cioè il 100% di accuratezza. Nel caso in cui il nuovo test non discriminasse per niente i malati dai sani, la curva ROC avrebbe un’area di 0.5 (o 50%) che coinciderebbe con l’area sottostante la diagonale del grafico. Nella realtà, si considera adeguato un test diagnostico con un’area sotto la curva ≥80%.

 

Diagnostica molto utile è anche la determinazione del cut-off ottimale, ovvero il valore che massimizzi contemporaneamente la sensibilità e la specificità del test.

Questo è l’indice di Youden, che vediamo di seguito con un esempio.​

 
 

Esempio

​Consideriamo un ipotetico campione di 25 pazienti affetti da malattia renale terminale. Per ciascun paziente sono stati misurati due biomarcatori cardiaci (atrial natriuretic peptide, ANP, e brain natriuretic peptide, BNP) e la presenza/assenza di ipertrofia ventricolare sinistra è stata accertata tramite ecocardiografia. L’ANP è prodotto principalmente dall’atrio, mentre il BNP dal ventricolo sinistro e vi è evidenza in letteratura che questi due biomarcatori hanno un buon potere diagnostico per identificare l’ipertrofia ventricolare sinistra nei pazienti in dialisi (Figura 1).

 
Figura1_nome.png

Per disegnare il grafico della curva ROC è necessario calcolare la sensibilità, la specificità e la proporzione di falsi positivi (1-specificità) relative a una serie di valori soglia di ANP e BNP. Ad esempio, per calcolare le coordinate della curva ROC per il solo ANP con Statistics for Data Analysis, si richiama la finestra di dialogo delle Analisi ROC dal Menu Analizza/ Analizza ROC (Figura 2).

Figura2_New.png

Per brevità, nella Figura 3 sono riportate le coordinate della curva ROC per il solo ANP.

Figura3_nome.png

Per esempio, un cut-off di ANP pari a 59 pg/mL ha una sensibilità del 70%, per l’identificazione dei pazienti con ipertrofia ventricolare sinistra, e una percentuale di falsi positivi del 20%

Riportando nel grafico tutte le possibili coppie di veri positivi e falsi positivi, corrispondenti a ciascun valore soglia, si ottiene la curva ROC (figura 4).

Figura4_nome.png

La figura 5 riporta l’AUC, pari a 0,743 (cioè del 74%). Questo significa che in un ipotetico esperimento che consiste nello scegliere in 100 diverse prove, in modo random, una coppia di pazienti di cui uno con ipertrofia ventricolare sinistra e uno senza, nel 74% dei casi i livelli di ANP sono più alti negli individui con ipertrofia ventricolare sinistra rispetto a quelli senza questa alterazione.

Figura5_nome.png
 

Indice Youden

Attraverso le coordinate della curva ROC è possibile identificare il best cut-off, cioè il valore del test che massimizza la differenza tra veri positivi e falsi positivi, ovvero il Test di Youden, disponibile solo nella soluzione Statistics for Data Analysis, all’interno del menu Analizza/ Analyze Add-On.”

Una volta riportate le coordinate della Curva ROC sul dataset (Figura 7) è possibile calcolare il Test di Youden grazie al relativo Add-On, potendo anche richiamare tutti i migliori risultati di cui si ha necessità (Figura 6).

Figura6_nome.png

Nel nostro caso il best cut-off si associa a una percentuale di falsi positivi del 27 %, come si evidenzia nella prima riga del cutoff_score in figura 7.

Figura7_nome.png

Questo best cut-off corrisponde ad un valore per l’ANP di 52 pg/mL che si associa a una sensibilità del 70%. (Figura 8).

Figura8_nome.png

In conclusione, nel nostro esempio, questo valore ricavato dall’Add-On del Test di Youden per l’ANP di 52 pg/mL è quello che massimizza la differenza tra veri positivi e falsi positivi per l’identificazione dell’ipertrofia ventricolare sinistra.

 

(L’esempio sopra riportato ha come unico obiettivo mostrare come richiamare un’analisi ROC e alcune sue diagnostiche, tra cui l’Indice di Youden. Si considerino i dati di invenzione, senza nulla voler dimostrare dal punto di vista medico).