Modulo Youden
di Statistics for Data Analysis
Il nuovo modulo Youden ti aiuta a determinare il cut-off ottimale di una curva ROC, una tecnica molto utile che mostra le prestazioni di classificazione a diverse soglie di probabilità.
Questa tecnica è molto usata in medicina, radiologia, psicologia, meteorologia, veterinaria e fisica.
Richiamo alla Curva ROC
La curva ROC (Receiver Operating Characteristic) è un grafico che mette in relazione la sensibilità e la specificità di un test diagnostico al variare di un valore soglia, detto anche di cut-off.
L’analisi della curva ROC di un test diagnostico permette di:
-
Valutare l’accuratezza
-
Determinare il valore di cut-off più appropriato
-
Confrontare le performance di due o più test
Per assaggiare l’importanza dell’indice di Youden, richiameremo prima alcuni concetti di base, essenziali per comprendere l’argomento.
Per praticità, riportiamo di seguito alcuni concetti fondamentali:
-
l’obiettivo di un test è classificare correttamente un paziente (ad esempio presenza o assenza di una specifica malattia)
-
i casi classificati erroneamente vengono chiamati falsi positivi e falsi negativi
-
la sensibilità di un test diagnostico è la proporzione di casi veri positivi che vengono classificati in maniera corretta (ad esempio, in medicina è la capacità di classificare correttamente i soggetti malati).
-
la specificità di un test diagnostico è la proporzione di veri negativi che sono classificati correttamente (ad esempio, in medicina è la probabilità di classificare correttamente i sani).
La Curva ROC e diagnostiche
La curva ROC è uno strumento molto utile per riassumere in un unico grafico le performance di un test diagnostico al variare del valore di cut-off.
Il grafico di una curva ROC è formato da:
-
i valori di sensibilità, cioè la proporzione dei veri postivi del test sull’asse delle ordinate (asse y)
-
i valori di specificità, cioè la proporzione dei falsi positivi del test sull’asse delle ascisse (asse x)
-
all’interno del grafico viene rappresentato ogni valore di cut-off, per ognuno dei quali si può leggere il valore della sensibilità (sull’asse y) e quello della specificità (sull’asse x)
-
unendo i vari punti si ottiene una curva con andamento “a scaletta”, la curva ROC.
L’area sottostante alla curva ROC (AUC, acronimo di “Area Under the Curve”) è una misura di accuratezza diagnostica. Per semplicità, potremmo dire che se un ipotetico nuovo test discriminasse perfettamente i malati dai sani, l’area della curva ROC avrebbe valore 1, cioè il 100% di accuratezza. Nel caso in cui il nuovo test non discriminasse per niente i malati dai sani, la curva ROC avrebbe un’area di 0.5 (o 50%) che coinciderebbe con l’area sottostante la diagonale del grafico. Nella realtà, si considera adeguato un test diagnostico con un’area sotto la curva ≥80%.
Diagnostica molto utile è anche la determinazione del cut-off ottimale, ovvero il valore che massimizzi contemporaneamente la sensibilità e la specificità del test.
Questo è l’indice di Youden, che vediamo di seguito con un esempio.
Esempio
Consideriamo un ipotetico campione di 25 pazienti affetti da malattia renale terminale. Per ciascun paziente sono stati misurati due biomarcatori cardiaci (atrial natriuretic peptide, ANP, e brain natriuretic peptide, BNP) e la presenza/assenza di ipertrofia ventricolare sinistra è stata accertata tramite ecocardiografia. L’ANP è prodotto principalmente dall’atrio, mentre il BNP dal ventricolo sinistro e vi è evidenza in letteratura che questi due biomarcatori hanno un buon potere diagnostico per identificare l’ipertrofia ventricolare sinistra nei pazienti in dialisi (Figura 1).
Per disegnare il grafico della curva ROC è necessario calcolare la sensibilità, la specificità e la proporzione di falsi positivi (1-specificità) relative a una serie di valori soglia di ANP e BNP. Ad esempio, per calcolare le coordinate della curva ROC per il solo ANP con Statistics for Data Analysis, si richiama la finestra di dialogo delle Analisi ROC dal Menu Analizza/ Analizza ROC (Figura 2).
Per brevità, nella Figura 3 sono riportate le coordinate della curva ROC per il solo ANP.
Per esempio, un cut-off di ANP pari a 59 pg/mL ha una sensibilità del 70%, per l’identificazione dei pazienti con ipertrofia ventricolare sinistra, e una percentuale di falsi positivi del 20%
Riportando nel grafico tutte le possibili coppie di veri positivi e falsi positivi, corrispondenti a ciascun valore soglia, si ottiene la curva ROC (figura 4).
La figura 5 riporta l’AUC, pari a 0,743 (cioè del 74%). Questo significa che in un ipotetico esperimento che consiste nello scegliere in 100 diverse prove, in modo random, una coppia di pazienti di cui uno con ipertrofia ventricolare sinistra e uno senza, nel 74% dei casi i livelli di ANP sono più alti negli individui con ipertrofia ventricolare sinistra rispetto a quelli senza questa alterazione.
Indice Youden
Attraverso le coordinate della curva ROC è possibile identificare il best cut-off, cioè il valore del test che massimizza la differenza tra veri positivi e falsi positivi, ovvero il Test di Youden, disponibile solo nella soluzione Statistics for Data Analysis, all’interno del menu Analizza/ Analyze Add-On.”
Una volta riportate le coordinate della Curva ROC sul dataset (Figura 7) è possibile calcolare il Test di Youden grazie al relativo Add-On, potendo anche richiamare tutti i migliori risultati di cui si ha necessità (Figura 6).
Nel nostro caso il best cut-off si associa a una percentuale di falsi positivi del 27 %, come si evidenzia nella prima riga del cutoff_score in figura 7.
Questo best cut-off corrisponde ad un valore per l’ANP di 52 pg/mL che si associa a una sensibilità del 70%. (Figura 8).
In conclusione, nel nostro esempio, questo valore ricavato dall’Add-On del Test di Youden per l’ANP di 52 pg/mL è quello che massimizza la differenza tra veri positivi e falsi positivi per l’identificazione dell’ipertrofia ventricolare sinistra.
(L’esempio sopra riportato ha come unico obiettivo mostrare come richiamare un’analisi ROC e alcune sue diagnostiche, tra cui l’Indice di Youden. Si considerino i dati di invenzione, senza nulla voler dimostrare dal punto di vista medico).