Un algoritmo per la classificazione dei disegni di studio per valutare l’accuratezza diagnostica, prognostica e predittiva dei test nelle revisioni sistematiche

Set 8, 2021
admin

I risultati dei test medici sono la fonte principale per informare la decisione clinica. L’accuratezza dei test è la capacità di un test di discriminare tra diversi gruppi di pazienti (ad esempio, sani e malati). Il primo passo per valutare il valore di un test medico prima di eseguire studi di impatto comparativi (ad esempio, studi randomizzati controllati) su diversi test è la valutazione dell’accuratezza del test. Inoltre, se gli studi di impatto sono assenti, l’evidenza sull’accuratezza del test può essere usata per stimare gli effetti sui risultati importanti per il paziente collegando l’evidenza dei diversi percorsi di cura (ad esempio nessun trattamento vs. trattamento) risultanti dalle diverse classificazioni basate sul test alle misure di accuratezza del test (ad es.

L’uso dei test, anche dello stesso test, nell’assistenza sanitaria può essere molteplice per quanto riguarda il quesito clinico (ad es. diagnosi di uno stato di salute, previsione del successo della terapia) e lo scopo (ad es. screening o sorveglianza, monitoraggio del trattamento o staging). Inoltre, i test medici di solito non vengono utilizzati da soli, ma in diverse costellazioni con altri test, tra cui il triage prima di un altro test, l’add-on a un altro test e il test parallelo a un altro test.

In aggiunta alle molteplici aree di applicazione, gli studi di accuratezza dei test sono spesso etichettati in modo poco chiaro nella letteratura medica per quanto riguarda la differenziazione tra diagnosi, prognosi e previsione (per esempio, vedi ), e per quanto riguarda il disegno dello studio epidemiologico sottostante (per esempio, vedi ). Questi aspetti complicano la corretta classificazione del disegno dello studio.

Le revisioni sistematiche sull’accuratezza dei test (ad esempio su sensibilità e specificità) riassumono le misure di accuratezza dei test da diversi studi. Una definizione coerente e chiara dei disegni di studio è fondamentale per la qualità in diversi compiti della revisione sistematica. Questo include la selezione degli studi, la scelta dello strumento per la valutazione del rischio di distorsione, la decisione di quali studi dovrebbero essere raggruppati nella stessa meta-analisi e la valutazione della certezza del corpo delle prove.

Di seguito, proponiamo un algoritmo per la classificazione degli studi sulla precisione dei test nelle revisioni sistematiche.

Considerazioni preliminari

Questo algoritmo si applica solo agli studi che confrontano i risultati di un test indice (il test da valutare) con i risultati di un test di riferimento (il test i cui risultati sono considerati corretti/il gold standard). I test di interesse devono consentire una classificazione binaria, utilizzando un cut-off per una misura categorica o continua (ad esempio, pressione sanguigna alta o bassa, punteggio di un modello prognostico) o essere di natura binaria. L’algoritmo può essere utilizzato per qualsiasi test utilizzato in ambito sanitario. Questo test può essere un singolo test (es. imaging) o una combinazione predefinita (collegamento AND o OR) di test (es. imaging e laboratorio) o fattori (es. sintomi, caratteristiche del paziente) che sono formalmente combinati in un modello diagnostico o prognostico. Quando i revisori applicano l’algoritmo, devono essere consapevoli che il test non deve essere un test in senso stretto (ad esempio test di laboratorio, dispositivi diagnostici). Può anche essere un’osservazione (ad esempio, sana), una procedura medica (ad esempio, controllo generale della salute) o una valutazione clinica (ad esempio, ispezione del cadavere).

L’algoritmo non può essere utilizzato per studi sulla calibrazione dei test e studi sull’affidabilità dei test (ad esempio, studi di test-retest). L’algoritmo non può inoltre essere utilizzato per classificare gli studi comparativi e di impatto sui test. Questi sono tutti gli studi che confrontano l’accuratezza di almeno due test utilizzando lo stesso standard di riferimento o studi che confrontano l’impatto di diversi test sugli esiti di salute (ad esempio uno studio randomizzato controllato che confronta due diverse strategie di screening per quanto riguarda l’impatto sulla mortalità). Tuttavia, è importante considerare che negli studi comparativi sui test, i singoli bracci dello studio in cui viene eseguito un test possono essere considerati studi sull’accuratezza del test (ad esempio il braccio di uno studio randomizzato controllato in cui viene utilizzato un test di screening) e quindi potrebbero essere (potenzialmente) rilevanti per le revisioni sistematiche sull’accuratezza del test. Gli studi in cui viene calcolata una misura dell’effetto relativo ma non può essere calcolata l’accuratezza del test (per esempio studi sui fattori prognostici) non sono considerati in questo documento perché possono essere classificati come studi sulle esposizioni (per esempio studi caso-controllo). Per questi studi sulle esposizioni così come per gli studi di impatto comparativo, le classificazioni sono state descritte altrove.

L’algoritmo di classificazione

L’algoritmo di classificazione è presentato in Fig. 1. I disegni di studio che possono essere classificati con l’algoritmo sono mostrati nella tabella 2. Nei paragrafi seguenti, viene spiegata l’applicazione dell’algoritmo. A titolo illustrativo, il lettore potrebbe immaginare una revisione sistematica sull’accuratezza dei test per le persone anziane, per la quale forniamo esempi in tutta la descrizione dell’algoritmo.

Fig. 1
figura1

Algoritmo per la classificazione dei disegni degli studi di accuratezza dei test

Si tratta di uno studio di accuratezza dei test?

Non è sempre direttamente ovvio se lo studio in esame sia effettivamente uno studio sull’accuratezza dei test perché gli studi potrebbero non riportare misure di accuratezza ma solo fornire dati che permettono di calcolare misure di accuratezza (ad esempio la sensibilità del test cognitivo per la diagnosi di demenza). In altre parole, gli autori delle revisioni sistematiche devono controllare se è possibile calcolare una tabella incrociata 2 × 2 (vedi tabella 1). Pertanto, il primo criterio dell’algoritmo è la domanda se lo studio è uno studio sull’accuratezza dei test.

Tabella 1 Tabella 2 × 2 per il calcolo delle misure di accuratezza dei test

Accuratezza diagnostica, prognostica o predittiva dei test (cross-sectional o longitudinale)?

I test nella sanità possono essere utilizzati per la diagnosi, la prognosi e/o la previsione. La diagnosi si riferisce alla “probabilità che uno specifico risultato o malattia sia presente (o assente) in un individuo, in questo momento”. Ciò significa che, negli studi di accuratezza diagnostica, le informazioni del test sono utilizzate per fare una classificazione di uno stato di salute attuale (ad esempio, compromesso cognitivo vs. sano). Al contrario, “la prognosi si riferisce al rischio di (qualsiasi) risultato futuro sulla salute nelle persone con una data malattia o condizione di salute” (ad esempio, alto rischio vs. basso rischio di morire entro 1 anno). Per i test, questo significa che gli studi di accuratezza prognostica e predittiva classificano il rischio di sviluppare un risultato in futuro, che non è presente nel momento in cui il test viene applicato. La prognosi può essere ulteriormente suddivisa in ricerca prognostica e predittiva. La prognosi considera il corso naturale delle malattie e quindi risponde alla domanda chi ha bisogno di un trattamento (per esempio, c’è bisogno di un trattamento solo se c’è un rischio di sviluppare la demenza). La predizione mira a prevedere l’esito nei pazienti trattati e quindi risponde alla domanda chi e come dovrebbe essere trattato (ad esempio, l’allenamento della cognizione nelle persone con decadimento cognitivo lieve è necessario solo se c’è una possibilità di miglioramento). Nel seguito, considereremo i test di prognosi e di predizione insieme perché entrambi hanno una visione longitudinale dal presente al futuro e quindi la loro accuratezza del test può essere valutata con gli stessi disegni di studio. Tuttavia, gli autori di revisioni sistematiche dovrebbero considerare attentamente se lo studio in esame considera il corso naturale delle malattie (prognosi) o considera i pazienti trattati (predizione).

Il secondo criterio dell’algoritmo di classificazione è la domanda se l’obiettivo dello studio in esame è quello di valutare l’accuratezza diagnostica o l’accuratezza prognostica/predittiva di un test. Poiché la differenza principale tra questi due è la componente temporale (stato attuale vs. stato futuro), il secondo criterio di classificazione considera l’intervallo di tempo tra il test indice e quello di riferimento. Una diagnosi è la classificazione di uno stato attuale. Tutte le informazioni su un singolo partecipante si riferiscono allo stesso punto temporale (ad esempio, il test cognitivo indica che il paziente ha attualmente la demenza). Questo implica che tutti gli studi di accuratezza diagnostica sono di natura trasversale. Poiché una diagnosi fornisce informazioni su uno stato attuale, il test di riferimento e il test indice dovrebbero essere eseguiti nello stesso momento. Quando si applica questo criterio, è importante fare riferimento al momento della raccolta delle informazioni sul test di indice e di riferimento per un singolo partecipante allo studio e non al momento della raccolta dei dati per lo studio (ad esempio la revisione della cartella per verificare la diagnosi di demenza) per evitare confusione. Per esempio, un paziente potrebbe ricevere un test indice (per esempio un breve test cognitivo) nelle cure primarie e il test di riferimento (per esempio una valutazione cognitiva completa) durante un ricovero in ospedale diversi mesi dopo. Le informazioni sui risultati di entrambi i test sono raccolte da dati sanitari raccolti di routine nello stesso momento (ad esempio, un registro dei pazienti geriatrici). Anche se i dati per lo studio sono raccolti nello stesso momento dal registro, lo studio non è trasversale perché l’indice e il test di riferimento non sono eseguiti allo stesso tempo a livello del singolo partecipante. In pratica, i punti temporali in cui i test vengono eseguiti di solito non sono esattamente gli stessi. Così, lo stesso punto temporale può significare quasi allo stesso punto temporale (ad esempio, breve test cognitivo e valutazione cognitiva completa nella stessa visita) o che un test viene eseguito vicino all’altro (ad esempio, breve test cognitivo e valutazione cognitiva completa nella stessa degenza ospedaliera). Si dovrebbe giudicare se l’intervallo di tempo nello studio in esame è stato adeguato, considerando la probabilità che lo stato del paziente (ad esempio, nessun deterioramento cognitivo) non sia cambiato tra l’indice e il test di riferimento. Di conseguenza, il ritardo accettabile dipende dalla condizione ed è maggiore nelle condizioni di lenta progressione che in quelle di rapida progressione. Per la classificazione del disegno dello studio, questo significa che, se si può giustificare che è improbabile che lo stato sia cambiato (ad esempio, diagnosi di demenza di Alzheimer), gli studi con un ritardo tra l’indice e il test di riferimento potrebbero anche essere classificati come cross-sectional. Poiché non si può escludere che lo stato del paziente sia cambiato tra i due test, c’è un rischio di errore di classificazione negli studi sull’accuratezza diagnostica perché il rapporto tra i gruppi di pazienti (ad esempio la proporzione classificata come compromessa cognitiva o non compromessa cognitiva) risultante dalla classificazione del test potrebbe essere cambiato nel frattempo. Suggeriamo che due intervalli di tempo tra l’indice e il test di riferimento siano pre-specificati nelle revisioni sistematiche sull’accuratezza dei test diagnostici. Uno per la decisione sull’inclusione nella revisione sistematica e un altro criterio (di solito un intervallo di tempo più piccolo) per giudicare il rischio basso/moderato di bias di verifica ritardata. La specificazione delle soglie richiederebbe di solito la competenza di un metodologo e di un clinico.

Una prognosi/preddizione è una classificazione di uno stato futuro. Negli studi sulla prognosi/previsione, il test indice viene utilizzato per classificare i partecipanti in base al loro rischio di sviluppare un certo risultato (ad esempio, la progressione del decadimento cognitivo lieve alla demenza), o la risposta alla terapia (ad esempio, una risposta al training cognitivo). Qui, il test di riferimento viene utilizzato per valutare lo stato dell’esito. Le informazioni dei risultati dei test di indice e di riferimento per un singolo partecipante si riferiscono a diversi punti di tempo. Ciò implica che gli studi sulla prognosi/previsione sono sempre longitudinali perché ci sono osservazioni ripetute, cioè il risultato del test indice e in seguito i risultati del test di riferimento per ogni partecipante. A differenza degli studi sull’accuratezza diagnostica, l’intervallo di tempo tra il test indice e il test di riferimento non dovrebbe essere troppo breve ma “sufficientemente” lungo. L’intervallo di tempo dovrebbe essere scelto in modo tale che, se l’esito di interesse non si è verificato (ad esempio, test negativo per la demenza), è improbabile che si verifichi subito dopo (ad esempio, il lieve deterioramento cognitivo probabilmente non progredirà in demenza nei prossimi mesi). Oltre a un periodo di vita, spesso le informazioni su alcuni intervalli di tempo predefiniti sono clinicamente rilevanti (ad esempio, lo sviluppo della demenza nei prossimi 5 anni). Tuttavia, nella pratica della ricerca, la scelta dell’intervallo di tempo può essere guidata piuttosto dalla disponibilità di dati (per esempio la lunghezza del follow-up) che dall’importanza clinica. Oltre al giudizio sulla rilevanza clinica, l’intervallo di tempo nello studio in esame è fondamentale per la valutazione del rischio di bias. Una lunghezza insufficiente del follow-up può causare un lead-time bias negli studi con risultati di test indice non in cieco, perché nei partecipanti con un test indice positivo (ad esempio, indicazione di deterioramento cognitivo), si sospetta il verificarsi di un evento (ad esempio, lo sviluppo di demenza). Pertanto, i partecipanti con un test indice positivo hanno spesso una maggiore possibilità di essere monitorati più da vicino, e di conseguenza hanno anche una maggiore possibilità di ricevere il test di riferimento prima (ad esempio attraverso un monitoraggio più intenso della funzione cognitiva) rispetto ai partecipanti con un risultato negativo del test indice. Inoltre, l’osservazione di un minor numero di eventi in un gruppo può essere spuria se il risultato del test è associato solo a un ritardo degli eventi ma in realtà non abbassa il tasso di eventi considerando un periodo di vita. Pertanto, come per la diagnosi, suggeriamo che gli autori di revisioni sistematiche pre-specifichino due intervalli di tempo. Uno per selezionare gli studi che dovrebbero essere scelti a seconda dell’orizzonte temporale di interesse (ad esempio, progressione precoce o tardiva) e uno per giudicare il rischio di bias degli studi. È importante notare che, a nostra conoscenza, per gli studi sull’accuratezza prognostica, non esiste uno strumento per valutare la qualità metodologica.

Gli autori delle revisioni sistematiche saranno regolarmente interessati all’accuratezza diagnostica (ad esempio, la diagnosi di decadimento cognitivo lieve) o all’accuratezza prognostica/predittiva (ad esempio, la previsione della demenza nei pazienti con decadimento cognitivo lieve). Una pre-specificazione degli intervalli di tempo per la selezione degli studi è quindi molto importante per distinguere gli studi diagnostici da quelli prognostici/predittivi, in particolare, perché lo stesso test può spesso essere utilizzato sia per la diagnosi che per la prognosi/previsione (vedi per esempio ). Ciò significa che il quesito clinico non può essere sempre dedotto dal test stesso, ma che solo l’intervallo di tempo tra il test indice e il test di riferimento indica se lo studio è sull’accuratezza concomitante o predittiva. Inoltre, la distinzione potrebbe essere difficile perché il passaggio dalla verifica ritardata alla prognosi/previsione può essere fluente.

Se gli autori di revisioni sistematiche sono convinti che il test possa essere utilizzato esclusivamente per la diagnosi o la prognosi/predizione, possono utilizzare solo il rispettivo percorso (diagnosi, prognosi/predizione) dell’algoritmo.

Selezione dei partecipanti di tipo coorte o caso-controllo?

Il secondo criterio distingue gli studi di tipo coorte dagli studi di tipo caso-controllo e può essere applicato per gli studi di accuratezza diagnostica in modo simile che per gli studi di accuratezza prognostica/predittiva.

In generale, gli studi di tipo coorte e quelli di tipo caso-controllo si distinguono per il metodo di selezione dei partecipanti allo studio . Negli studi di accuratezza dei test di tipo coorte, i partecipanti sono reclutati in base al sospetto. Per sospetto intendiamo che ci sia un’indicazione per eseguire il test, compresi segni e sintomi, la presenza di fattori di rischio (ad esempio le caratteristiche del paziente, l’ambiente) o i risultati di precedenti test medici.

Teoricamente, nello screening della popolazione, le persone potrebbero essere selezionate indipendentemente dal fatto che ci sia un’indicazione per farlo o meno. Tuttavia, in pratica, questo non è il caso usuale, ma anche nella maggior parte dei programmi di screening basati sulla popolazione, c’è almeno una vaga indicazione per eseguire un test (ad esempio, un certo gruppo di età, sesso). Nei disegni di coorte, tutti i partecipanti sospetti ricevono il test indice e il test di riferimento per determinare il loro stato attuale (diagnosi) o per valutare il loro stato di risultato (prognosi/previsione). Negli studi di coorte diagnostica, il test indice e il test di riferimento sono eseguiti contemporaneamente. Questa relazione trasversale implica che l’ordine del test di riferimento e del test indice può essere diverso, purché i test siano eseguiti (quasi) contemporaneamente o senza troppo ritardo (vedi sopra). Così, il test di riferimento e il test indice possono essere eseguiti contemporaneamente, il test di riferimento può essere eseguito dopo il test indice o il test indice può essere eseguito dopo il test di riferimento. Per gli studi di coorte sull’accuratezza prognostica/predittiva, la relazione longitudinale implica che il test indice sia sempre eseguito prima del test di riferimento.

Nei disegni caso-controllo, la selezione dei partecipanti è basata sullo stato di salute/esito. I risultati del test indice dei partecipanti con un risultato positivo del test di riferimento/evento (casi) sono confrontati con i risultati del test indice dei partecipanti con un risultato negativo del test di riferimento/nessun evento (controlli). Come negli studi caso-controllo sull’esposizione o sugli interventi, i casi e i controlli possono provenire dalla stessa fonte (per esempio un registro) o da fonti diverse (per esempio i casi da un registro Alzheimer e i controlli da un database amministrativo). Negli studi di accuratezza diagnostica caso-controllo, il test di riferimento a livello del singolo partecipante viene sempre eseguito prima del test indice, ma la visione/interpretazione (ad esempio, revisione retrospettiva della documentazione) sui risultati del test indice è sempre retrospettiva. È importante notare che nei disegni caso-controllo, non è possibile calcolare valori predittivi perché la prevalenza/incidenza (somma delle colonne nella tabella 2 × 2 dei partecipanti classificati positivi e negativi con il test di riferimento) è un risultato artificiale del disegno (ad esempio il 50% nella corrispondenza caso-controllo 1:1).

Suggeriamo di etichettare gli studi di accuratezza diagnostica con selezione dei pazienti basata sul sospetto “studi cross-sectional selezionati per coorte” e studi con campionamento basato sul caso “studi cross-sectional selezionati per caso-controllo”. Questa etichettatura assicura una chiara differenziazione rispetto ai disegni di studi longitudinali e indica il metodo di selezione dei partecipanti. Anche se siamo consapevoli che combinare virtualmente le etichette coorte e cross-sectional sembra essere contrario, crediamo che etichettare in questo modo sia preferibile a un’etichettatura completamente nuova perché la maggior parte dei revisori ha familiarità con questi metodi di selezione standard.

Le figure a e c nella tabella 2 illustrano il disegno di uno “studio cross-sectional di selezione coorte” e “studio cross-sectional di selezione caso-controllo”, rispettivamente.

Tabella 2 Disegni di studio per valutare l’accuratezza del test

Le classificazioni (ad esempio positive contro negative) risultanti da un test indice per giudicare la prognosi/previsione possono essere considerate come esposizioni diverse (ad esempio alto rischio di sviluppare demenza contro basso rischio di sviluppare demenza) e il periodo di osservazione è longitudinale. L’unica differenza rispetto alla coorte classica e allo studio caso-controllo in epidemiologia è la misura dell’effetto (misure di accuratezza del test invece di rapporti di rischio). Pertanto, suggeriamo di etichettare gli studi di accuratezza prognostica/predittiva nello stesso modo, cioè “studi di coorte” e “studi caso-controllo”.

La figura b e d nella tabella 2 illustrano il disegno di uno “studio di coorte” e di uno “studio caso-controllo”, rispettivamente.

Ogni studio di accuratezza dei test potrebbe essere basato su dati raccolti specificamente per lo studio (cioè un database di studio) o su fonti di dati già esistenti (per esempio, dati raccolti di routine). Spesso la classificazione retrospettiva/prospettiva viene usata per distinguere se i dati sono stati raccolti specificamente per lo studio o se è stata usata una fonte di dati già esistente. Raccomandiamo di evitare questa classificazione per due motivi. In primo luogo, spesso gli studi hanno sia aspetti prospettici (ad esempio il piano di analisi) che retrospettivi (ad esempio la raccolta dei dati). In secondo luogo, soprattutto per gli studi di accuratezza diagnostica, questo porterebbe a classificazioni ingombranti (ad esempio, studio retrospettivo trasversale). Invece, la fonte di dati utilizzata per lo studio dovrebbe essere chiaramente descritta nella revisione sistematica.

Esempi illustrativi

La tabella 3 mostra un esempio illustrativo per ogni tipo di studio di accuratezza dei test. Nell’esempio di studio 1, tutti i destinatari di trapianto di rene di almeno 50 anni hanno ricevuto un test immunochimico fecale (test indice) per lo screening del cancro colorettale. Dopo il test immunochimico fecale, i pazienti sono stati indirizzati alla colonscopia (test di riferimento). In questo studio, il campionamento si basava sul sospetto (beneficiari di trapianto di rene). Il test indice e il test di riferimento sono stati eseguiti allo stesso tempo (la malattia non è probabilmente progredita). Di conseguenza, questo studio è uno studio trasversale a campionamento di coorte sull’accuratezza diagnostica (vedi Tabella 2 figura a).

Tabella 3 Esempi per i diversi tipi di studi di accuratezza

Nel secondo esempio, i pazienti con una diagnosi clinica (test di riferimento) di Alzheimer (casi) hanno frequentato una clinica della memoria sono stati abbinati a partecipanti senza Alzheimer, che sono stati reclutati da parenti che accompagnavano i pazienti alla clinica della memoria (nessuna malattia, controlli). Sia i pazienti che i parenti hanno ricevuto un test cognitivo (test indice) durante la visita alla clinica della memoria. Il campionamento dei partecipanti era basato sulla malattia in un gruppo e sull’assenza di malattie nell’altro. Anche se il test di riferimento è stato eseguito in un altro momento come il test indice, può essere considerato come lo stesso punto temporale perché la malattia non potrebbe essere stata risolta, cioè è ancora uno stato attuale. Di conseguenza, questo studio è uno studio di accuratezza diagnostica cross-sectional a campionamento caso-controllo (vedi tabella 2 figura c).

Il terzo esempio esamina tutti i pazienti tra i 50 e i 90 anni (sospetto) in un’organizzazione sanitaria a pagamento. Nello studio, le caratteristiche del paziente e altri fattori sono stati formalmente combinati in un modello prognostico. Il modello prognostico calcola un punteggio che viene dicotomizzato utilizzando diversi cut-off (test dell’indice). Per ogni partecipante, è stato previsto il rischio di sviluppare fratture entro 5 anni (evento futuro). Il campionamento si basava sul sospetto e si prevedeva un esito futuro. Anche se non è completamente chiaro dalla pubblicazione, si può presumere che la maggior parte dei pazienti non sia stata trattata per l’osteoporosi. Di conseguenza, lo studio è uno studio di coorte per valutare l’accuratezza prognostica (vedi Tabella 2 figura b).

L’ultimo esempio di studio ha incluso uomini di almeno 40 anni (sospetto), che avevano i risultati di un prelievo di sangue da uno studio di coorte più grande basato sulla popolazione. I pazienti con cancro alla prostata (evento finale) sono stati campionati e abbinati a pazienti senza cancro alla prostata (nessun evento finale, controlli). I livelli di antigene prostatico specifico (test indice) del precedente prelievo di sangue sono stati classificati e confrontati. I partecipanti non erano trattati, il campionamento era basato sull’esito e si prevedeva un esito futuro. Di conseguenza, lo studio è uno studio caso-controllo (annidato) per valutare l’accuratezza prognostica (vedi Tabella 2 figura d).

Limitazioni

Il nostro algoritmo copre solo le caratteristiche di base del disegno degli studi sull’accuratezza dei test. Esistono ulteriori criteri che sono importanti per la valutazione del rischio di bias e per la valutazione della fiducia nel corpo delle prove. In particolare, il metodo di campionamento è importante a questo proposito. Si ritiene che gli studi di coorte con un campione consecutivo o casuale (ad esempio un braccio di un percorso controllato randomizzato) forniscano informazioni meno distorte sull’accuratezza del test. Inoltre, la popolazione dello studio dovrebbe essere rappresentativa della popolazione target in modo da poter ottenere misure di accuratezza valide esternamente.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.