Un algoritmo para la clasificación de los diseños de los estudios para evaluar la precisión de las pruebas de diagnóstico, pronóstico y predicción en las revisiones sistemáticas
Los resultados de las pruebas médicas son la principal fuente para informar la toma de decisiones clínicas. La precisión de las pruebas es la capacidad de una prueba para discriminar entre diferentes grupos de pacientes (por ejemplo, sanos y enfermos). El primer paso para evaluar el valor de una prueba médica antes de realizar estudios comparativos de impacto (por ejemplo, ensayos controlados aleatorios) sobre diferentes pruebas es la evaluación de la precisión de la prueba. Además, si no hay estudios de impacto, las pruebas sobre la precisión de las pruebas pueden utilizarse para estimar los efectos sobre los resultados importantes para el paciente, vinculando las pruebas de las diferentes vías de atención (por ejemplo, ningún tratamiento frente a tratamiento) resultantes de las diferentes clasificaciones basadas en las pruebas con las medidas de precisión de las pruebas (por ejemplo, resultados falsos negativos de las pruebas).El uso de las pruebas, incluso de la misma prueba, en la atención sanitaria puede ser múltiple en cuanto a la cuestión clínica (por ejemplo, el diagnóstico de un estado de salud, la predicción del éxito de la terapia) y la finalidad (por ejemplo, el cribado o la vigilancia, el seguimiento del tratamiento o la estadificación). Además, las pruebas médicas no suelen utilizarse por sí solas, sino en diferentes constelaciones con otras pruebas, incluyendo el triaje antes de otra prueba, la adición a otra prueba y las pruebas paralelas con otra prueba.
Además de las múltiples áreas de aplicación, los estudios de exactitud de las pruebas a menudo se etiquetan de forma poco clara en la literatura médica con respecto a la diferenciación entre diagnóstico, pronóstico y predicción (por ejemplo, véase ), y con respecto al diseño del estudio epidemiológico subyacente (por ejemplo, véase ). Estos aspectos complican la clasificación correcta del diseño del estudio.
Las revisiones sistemáticas sobre la precisión de las pruebas (por ejemplo, sobre la sensibilidad y la especificidad) resumen las medidas de precisión de las pruebas de varios estudios. Una definición coherente y clara de los diseños de los estudios es fundamental para la calidad en varias tareas de la revisión sistemática. Esto incluye la selección de los estudios, la elección de la herramienta para la evaluación del riesgo de sesgo, la decisión de qué estudios deben agruparse en el mismo metanálisis y la evaluación de la certeza del conjunto de pruebas.
A continuación, proponemos un algoritmo para la clasificación de los estudios de precisión de las pruebas en las revisiones sistemáticas.
Consideraciones preliminares
Este algoritmo sólo se aplica a los estudios que comparan los resultados de una prueba índice (la prueba a evaluar) con los resultados de una prueba de referencia (la prueba cuyos resultados se consideran correctos/el patrón de oro). Las pruebas de interés deben permitir una clasificación binaria, ya sea utilizando un punto de corte para una medida categórica o continua (por ejemplo, presión arterial alta frente a baja, puntuación de un modelo de pronóstico) o ser de naturaleza binaria. El algoritmo puede utilizarse para cualquier prueba utilizada en la atención sanitaria. Esta prueba puede ser una única prueba (por ejemplo, de imagen) o una combinación predefinida (enlace AND u OR) de pruebas (por ejemplo, de imagen y de laboratorio) o factores (por ejemplo, síntomas, características del paciente) que se combinan formalmente en un modelo de diagnóstico o pronóstico . Cuando los revisores apliquen el algoritmo, deben ser conscientes de que la prueba no debe ser una prueba en sentido estricto (por ejemplo, pruebas de laboratorio, dispositivos de diagnóstico). También puede ser una observación (por ejemplo, saludable), un procedimiento médico (por ejemplo, un chequeo de salud general) o una evaluación clínica (por ejemplo, la inspección del cadáver).
El algoritmo no puede utilizarse para los estudios sobre la calibración de las pruebas y los estudios sobre la fiabilidad de las pruebas (por ejemplo, los estudios test-retest). El algoritmo tampoco puede utilizarse para clasificar los estudios comparativos y de impacto sobre las pruebas. Se trata de todos los estudios que comparan la precisión de al menos dos pruebas utilizando el mismo estándar de referencia o los estudios que comparan el impacto de diferentes pruebas en los resultados de salud (por ejemplo, un ensayo controlado aleatorio que compara dos estrategias de cribado diferentes con respecto al impacto en la mortalidad). Sin embargo, es importante tener en cuenta que en los estudios comparativos sobre pruebas, los brazos individuales del estudio en el que se realiza una prueba pueden considerarse estudios de precisión de la prueba (por ejemplo, el brazo de un ensayo controlado aleatorio en el que se utiliza una prueba de cribado) y, por tanto, podrían ser (potencialmente) relevantes para las revisiones sistemáticas sobre la precisión de la prueba. Los estudios en los que se calcula una medida de efecto relativo pero no se puede calcular una medida de exactitud de la prueba (por ejemplo, estudios de factores pronósticos) tampoco se consideran en este documento porque pueden clasificarse como estudios sobre exposiciones (por ejemplo, estudios de casos y controles). Para estos estudios sobre exposiciones, así como para los estudios de impacto comparativo, se han descrito clasificaciones en otros lugares.
El algoritmo de clasificación
El algoritmo de clasificación se presenta en la Fig. 1. Los diseños de estudios que pueden clasificarse con el algoritmo se muestran en la Tabla 2. En los párrafos siguientes se explica la aplicación del algoritmo. A modo de ilustración, el lector puede imaginarse una revisión sistemática sobre la precisión de las pruebas cognitivas breves para personas mayores para la que proporcionamos ejemplos a lo largo de la descripción del algoritmo.
¿Es un estudio de precisión de pruebas?
No siempre es directamente obvio si el estudio considerado es realmente un estudio de exactitud de la prueba porque los estudios podrían no informar de las medidas de exactitud sino sólo proporcionar datos que permitan calcular las medidas de exactitud (por ejemplo, la sensibilidad de la prueba cognitiva para el diagnóstico de la demencia). En otras palabras, los autores de la revisión sistemática deben comprobar si es posible calcular una tabulación cruzada 2 × 2 (véase la Tabla 1). Por lo tanto, el primer criterio del algoritmo es la pregunta, si el estudio es un estudio de precisión de la prueba.
¿Exactitud de la prueba diagnóstica, pronóstica o predictiva (transversal o longitudinal)?
Las pruebas en la asistencia sanitaria pueden utilizarse para el diagnóstico, el pronóstico y/o la predicción. El diagnóstico se refiere a la «probabilidad de que un resultado específico o enfermedad esté presente (o ausente) en un individuo, en este momento» . Esto significa que, en los estudios de precisión diagnóstica, la información de la prueba se utiliza para hacer una clasificación de un estado de salud actual (por ejemplo, deterioro cognitivo frente a salud). Por el contrario, «el pronóstico se refiere al riesgo de (cualquier) resultado de salud futuro en personas con una determinada enfermedad o estado de salud» (por ejemplo, alto riesgo frente a bajo riesgo de morir en el plazo de un año) . En el caso de las pruebas, esto significa que los estudios de precisión pronóstica y predictiva clasifican el riesgo de desarrollar un resultado en el futuro, que no está presente en el momento en que se aplica la prueba. El pronóstico puede subdividirse en investigación pronóstica y predictiva. El pronóstico tiene en cuenta el curso natural de las enfermedades y, por tanto, responde a la pregunta de quién necesita tratamiento (por ejemplo, sólo hay necesidad de tratamiento si hay riesgo de desarrollar demencia). La predicción pretende predecir el resultado en los pacientes tratados y, por tanto, responde a la pregunta de quién y cómo debe ser tratado (por ejemplo, el entrenamiento de la cognición en personas con deterioro cognitivo leve sólo es necesario si hay posibilidades de mejora) . En lo que sigue, consideraremos las pruebas de pronóstico y predicción juntas porque ambas tienen una visión longitudinal del presente en el futuro y, por lo tanto, la precisión de sus pruebas puede evaluarse con los mismos diseños de estudio. No obstante, los autores de las revisiones sistemáticas deben considerar cuidadosamente si el estudio que se evalúa tiene en cuenta el curso natural de las enfermedades (pronóstico) o considera a los pacientes tratados (predicción).
El segundo criterio del algoritmo de clasificación es la pregunta de si el objetivo del estudio que se considera es evaluar la exactitud diagnóstica o la exactitud pronóstica/predictiva de una prueba. Como la principal diferencia entre ambas es el componente temporal (estado actual frente al futuro), el segundo criterio de clasificación considera el intervalo de tiempo entre la prueba índice y la de referencia. Un diagnóstico es la clasificación de un estado actual. Toda la información sobre un participante individual se refiere al mismo punto temporal (por ejemplo, la prueba cognitiva indica que el paciente tiene actualmente demencia). Esto implica que todos los estudios de precisión diagnóstica son de naturaleza transversal. Dado que un diagnóstico proporciona información sobre un estado actual, la prueba de referencia y la prueba índice deben realizarse en el mismo punto temporal. Cuando se aplique este criterio, es importante referirse al momento en que se recoge la información sobre la prueba índice y de referencia para un participante individual del estudio y no al momento en que se recogen los datos para el estudio (por ejemplo, la revisión de la historia clínica para verificar el diagnóstico de demencia) para evitar confusiones. Por ejemplo, un paciente puede recibir una prueba índice (por ejemplo, una prueba cognitiva breve) en atención primaria y la prueba de referencia (por ejemplo, una evaluación cognitiva integral) en una estancia hospitalaria varios meses después. La información sobre los resultados de ambas pruebas se recopila a partir de datos sanitarios recogidos de forma rutinaria en el mismo momento (por ejemplo, un registro de pacientes geriátricos). Aunque los datos para el estudio se recogen en el mismo punto temporal del registro, el estudio no es transversal porque la prueba índice y la de referencia no se realizan al mismo tiempo a nivel de participante individual. En la práctica, los momentos en los que se realizan las pruebas no suelen ser exactamente los mismos. Así, el mismo punto de tiempo puede significar casi en el mismo punto de tiempo (por ejemplo, prueba cognitiva breve y evaluación cognitiva integral en la misma visita) o que una prueba se realiza cerca de la otra (por ejemplo, prueba cognitiva breve y evaluación cognitiva integral en la misma estancia hospitalaria). Se debe juzgar si el intervalo de tiempo en el estudio evaluado fue adecuado, considerando la probabilidad de que el estado del paciente (por ejemplo, sin deterioro cognitivo) no haya cambiado entre la prueba índice y la de referencia . En consecuencia, el retraso aceptable depende de la condición y es mayor en condiciones de progresión lenta que en condiciones de progresión rápida. Para la clasificación del diseño del estudio, esto significa que, si se puede justificar que es improbable que el estado haya cambiado (por ejemplo, el diagnóstico de demencia de Alzheimer), los estudios con un retraso entre la prueba índice y la de referencia también podrían clasificarse como transversales. Como no se puede excluir que el estado del paciente haya cambiado entre las dos pruebas, existe el riesgo de un sesgo de clasificación errónea en los estudios de precisión diagnóstica, ya que la proporción de grupos de pacientes (por ejemplo, la proporción clasificada como con deterioro cognitivo o sin deterioro cognitivo) resultante de la clasificación de la prueba podría haber cambiado entretanto. Sugerimos que en las revisiones sistemáticas sobre la precisión de las pruebas diagnósticas se preestablezcan dos intervalos de tiempo entre la prueba índice y la de referencia. Uno para la decisión sobre la inclusión en la revisión sistemática y otro criterio (normalmente un intervalo de tiempo menor) para juzgar el riesgo bajo/moderado de sesgo de verificación retardada . La especificación de los umbrales suele requerir la experiencia de un metodólogo y un clínico.
Un pronóstico/predicción es una clasificación de un estado futuro. En los estudios de pronóstico/predicción, la prueba índice se utiliza para clasificar a los participantes según su riesgo de desarrollar un determinado resultado (por ejemplo, la progresión del deterioro cognitivo leve a la demencia), o la respuesta a la terapia (por ejemplo, una respuesta al entrenamiento cognitivo). En este caso, la prueba de referencia se utiliza para evaluar el estado del resultado. La información de los resultados de las pruebas índice y de referencia para un participante individual se refiere a diferentes puntos temporales. Esto implica que los estudios de pronóstico/predicción son siempre longitudinales porque hay observaciones repetidas, a saber, el resultado de la prueba índice y posteriormente los resultados de la prueba de referencia para cada participante . A diferencia de los estudios de precisión diagnóstica, el intervalo de tiempo entre la prueba índice y la prueba de referencia no debe ser demasiado corto, sino «suficientemente» largo. El intervalo de tiempo debe elegirse de forma que, si el resultado de interés no se ha producido (por ejemplo, una prueba negativa para la demencia), sea improbable que se produzca poco después (por ejemplo, el deterioro cognitivo leve probablemente no progresará a demencia en los próximos meses). Además de un periodo de vida, a menudo la información sobre ciertos intervalos de tiempo predefinidos es relevante desde el punto de vista clínico (por ejemplo, desarrollar demencia en los próximos 5 años). Sin embargo, en la práctica de la investigación, la elección del intervalo de tiempo puede estar motivada más por la disponibilidad de datos (por ejemplo, la duración del seguimiento) que por la importancia clínica. Además del juicio sobre la importancia clínica, el intervalo de tiempo en el estudio considerado es crítico para la evaluación del riesgo de sesgo. Una duración insuficiente del seguimiento puede causar un sesgo de anticipación en los estudios con resultados de pruebas índice no cegados, ya que en los participantes con una prueba índice positiva (por ejemplo, indicación de deterioro cognitivo), se sospecha la aparición de un evento (por ejemplo, el desarrollo de demencia). Por lo tanto, los participantes con una prueba índice positiva suelen tener una mayor probabilidad de ser controlados más estrechamente y, en consecuencia, también tienen una mayor probabilidad de recibir la prueba de referencia antes (por ejemplo, mediante un control más intensivo de la función cognitiva) que los participantes con un resultado negativo de la prueba índice. Además, la observación de un menor número de eventos en un grupo puede ser espuria si el resultado de la prueba sólo se asocia con un retraso de los eventos, pero en realidad no disminuye la tasa de eventos considerando un período de vida. Por lo tanto, al igual que para el diagnóstico, sugerimos que los autores de las revisiones sistemáticas preescriban dos intervalos de tiempo. Uno para la selección de los estudios, que debería elegirse en función del horizonte temporal de interés (por ejemplo, progresión temprana o tardía) y otro para juzgar el riesgo de sesgo de los estudios . Es importante señalar que, hasta donde sabemos, no existe ninguna herramienta para evaluar la calidad metodológica de los estudios sobre la exactitud del pronóstico.
Los autores de las revisiones sistemáticas suelen estar interesados en la exactitud del diagnóstico (por ejemplo, el diagnóstico del deterioro cognitivo leve) o en la exactitud del pronóstico/predicción (por ejemplo, la predicción de la demencia en pacientes con deterioro cognitivo leve). Por lo tanto, es muy importante una especificación previa de los intervalos de tiempo para seleccionar los estudios, a fin de distinguir los estudios de diagnóstico de los de pronóstico/predicción, en particular, porque la misma prueba puede utilizarse a menudo para el diagnóstico y para el pronóstico/predicción (véase, por ejemplo). Esto significa que la cuestión clínica no siempre puede deducirse de la propia prueba, sino que sólo el intervalo de tiempo entre la prueba índice y la prueba de referencia indica si el estudio tiene una precisión concurrente o predictiva. Además, la distinción puede ser difícil porque el paso de la verificación diferida al pronóstico/predicción puede ser fluido.
Si los autores de las revisiones sistemáticas están convencidos de que la prueba puede utilizarse exclusivamente para el diagnóstico o el pronóstico/predicción, pueden utilizar sólo la vía respectiva (diagnóstico, pronóstico/predicción) del algoritmo.
¿Selección de participantes de tipo cohorte o de tipo caso-control?
El segundo criterio distingue los estudios de tipo cohorte de los de tipo caso-control y puede aplicarse para los estudios de exactitud diagnóstica de forma similar que para los estudios de exactitud pronóstica/predictiva.
En general, los estudios de tipo cohorte y los de tipo caso-control se distinguen por el método de selección de los participantes para el estudio . En los estudios de precisión de pruebas de tipo cohorte, los participantes se reclutan basándose en la sospecha. Por sospecha se entiende que existe una indicación para realizar la prueba, incluidos los signos y síntomas, la presencia de factores de riesgo (por ejemplo, las características del paciente, el entorno) o los resultados de pruebas médicas anteriores.
Teóricamente, en el cribado de la población, las personas podrían ser seleccionadas independientemente de si existe una indicación para hacerlo o no. Sin embargo, en la práctica, este no es el caso habitual, sino que además en la mayoría de los programas de cribado poblacional, existe al menos una vaga indicación para realizar una prueba (por ejemplo, cierto grupo de edad, sexo). En los diseños de cohortes, todos los participantes sospechosos reciben la prueba índice y la prueba de referencia para determinar su estado actual (diagnóstico) o para evaluar su estado de resultado (pronóstico/predicción). En los estudios de tipo cohorte de diagnóstico, la prueba índice y la prueba de referencia se realizan al mismo tiempo. Esta relación transversal implica que el orden de la prueba de referencia y de la prueba índice puede diferir siempre que las pruebas se realicen (casi) al mismo tiempo o sin demasiado retraso (véase más arriba). Así, la prueba de referencia y la prueba índice pueden realizarse simultáneamente, la prueba de referencia puede realizarse después de la prueba índice o la prueba índice puede realizarse después de la prueba de referencia. Para los estudios de tipo cohorte sobre la exactitud pronóstica/predictiva, la relación longitudinal implica que la prueba índice se realiza siempre antes de la prueba de referencia.
En los diseños de casos y controles, la selección de los participantes se basa en el estado de salud/resultado. Los resultados de la prueba índice de los participantes con un resultado positivo de la prueba de referencia/evento (casos) se comparan con los resultados de la prueba índice de los participantes con un resultado negativo de la prueba de referencia/no evento (controles). Al igual que en los estudios de casos y controles sobre exposiciones o intervenciones, los casos y los controles pueden proceder de la misma fuente (por ejemplo, un registro) o de fuentes diferentes (por ejemplo, los casos de un registro de Alzheimer y los controles de una base de datos administrativa). En los estudios de precisión diagnóstica de casos y controles, la prueba de referencia a nivel de participante individual siempre se realiza antes de la prueba índice, pero la visión/interpretación (por ejemplo, la revisión retrospectiva de registros) sobre los resultados de la prueba índice siempre es retrospectiva. Es importante señalar que en los diseños de casos y controles no pueden calcularse valores predictivos porque la prevalencia/incidencia (suma de columnas en la tabla 2 × 2 de participantes clasificados como positivos y negativos con la prueba de referencia) es un resultado artificial del diseño (por ejemplo, el 50% en el emparejamiento de casos y controles 1:1).
Se sugiere etiquetar los estudios de precisión diagnóstica con selección de pacientes basada en la sospecha como «estudios transversales seleccionados por cohortes» y los estudios con muestreo basado en casos como «estudios transversales seleccionados por casos y controles». Este etiquetado asegura una clara diferenciación con los diseños de estudios longitudinales e indica el método de selección de los participantes. Aunque somos conscientes de que la combinación de las etiquetas cohorte y transversal parece prácticamente contraria, creemos que etiquetar así es preferible a un etiquetado completamente nuevo porque la mayoría de los revisores están familiarizados con estos métodos de selección estándar.
Las figuras a y c de la tabla 2 ilustran el diseño de un «estudio transversal de selección de cohortes» y un «estudio transversal de selección de casos y controles», respectivamente.
Las clasificaciones (por ejemplo, positivas frente a negativas) resultantes de una prueba índice para juzgar el pronóstico/predicción pueden considerarse como exposiciones diferentes (por ejemplo, alto riesgo de desarrollar demencia frente a bajo riesgo de desarrollar demencia) y el periodo de observación es longitudinal. La única diferencia con el clásico estudio de cohortes y de casos y controles en epidemiología es la medida del efecto (medidas de precisión de la prueba en lugar de cocientes de riesgo). Por lo tanto, sugerimos etiquetar los estudios de precisión pronóstica/predictiva de la misma manera, es decir, «estudios de cohortes» y «estudios de casos y controles».
Las figuras b y d de la tabla 2 ilustran el diseño de un «estudio de cohortes» y un «estudio de casos y controles», respectivamente.
Los estudios de precisión de las pruebas pueden basarse en datos recogidos específicamente para el estudio (es decir, una base de datos del estudio) o en fuentes de datos ya existentes (por ejemplo, datos recogidos de forma rutinaria). A menudo se utiliza la clasificación retrospectivo/prospectivo para distinguir si los datos se recogieron específicamente para el estudio o se utilizó una fuente de datos ya existente. Recomendamos evitar esta clasificación por dos razones. En primer lugar, a menudo los estudios tienen aspectos prospectivos (por ejemplo, el plan de análisis) y retrospectivos (por ejemplo, la recogida de datos). En segundo lugar, especialmente en el caso de los estudios de precisión diagnóstica, esto llevaría a clasificaciones engorrosas (por ejemplo, estudio transversal retrospectivo). En su lugar, la fuente de datos utilizada para el estudio debe describirse claramente en la revisión sistemática.
Ejemplos ilustrativos
La tabla 3 muestra un ejemplo ilustrativo para cada tipo de estudio de precisión de pruebas. En el estudio de ejemplo 1 , todos los receptores de trasplantes de riñón de al menos 50 años recibieron una prueba inmunoquímica fecal (prueba índice) para el cribado del cáncer colorrectal. Tras la prueba inmunoquímica fecal, los pacientes fueron remitidos a una colonoscopia (prueba de referencia). En este estudio, la toma de muestras se basó en la sospecha (receptores de trasplantes de riñón). La prueba índice y la prueba de referencia se realizaron al mismo tiempo (es probable que la enfermedad no haya progresado). En consecuencia, este estudio es un estudio transversal de muestreo de cohortes sobre la precisión del diagnóstico (véase la figura a de la Tabla 2).
En el segundo ejemplo, los pacientes con un diagnóstico clínico (prueba de referencia) de Alzheimer (casos) que acudieron a una clínica de memoria se emparejaron con participantes sin Alzheimer, que fueron reclutados entre los familiares que acompañaban a los pacientes a la clínica de memoria (sin enfermedad, controles). Tanto los pacientes como los familiares recibieron una prueba cognitiva (prueba índice) durante la visita a la clínica de memoria. El muestreo de los participantes se basó en la enfermedad en un grupo y en la ausencia de enfermedades en el otro. Aunque la prueba de referencia se realizó en un momento distinto al de la prueba índice, puede considerarse como el mismo punto temporal porque la enfermedad podría no haberse resuelto, es decir, sigue siendo un estado actual. En consecuencia, este estudio es un estudio de precisión diagnóstica transversal de muestreo de casos y controles (véase la tabla 2, figura c).
El tercer ejemplo examina a todos los pacientes de entre 50 y 90 años (sospecha) en una organización sanitaria de proveedores de pago. En el estudio, las características del paciente y otros factores se combinaron formalmente en un modelo de pronóstico. El modelo de pronóstico calcula una puntuación que se dicotomiza utilizando diferentes puntos de corte (prueba de índice). Para cada participante, se predijo el riesgo de desarrollar fracturas en un plazo de 5 años (evento futuro). El muestreo se basó en la sospecha y se predijo un resultado futuro. Aunque no queda del todo claro en la publicación, cabe suponer que la mayoría de los pacientes no recibieron tratamiento para la osteoporosis. En consecuencia, se trata de un estudio de cohortes para evaluar la precisión del pronóstico (véase la tabla 2, figura b).
El último estudio de ejemplo incluyó a hombres de al menos 40 años (sospecha), que tenían resultados de una extracción de sangre de un estudio de cohortes más amplio basado en la población. Se tomaron muestras de pacientes con cáncer de próstata (evento de resultado) y se emparejaron con pacientes sin cáncer de próstata (sin evento de resultado, controles). Se clasificaron y compararon los niveles de antígeno prostático específico (prueba índice) de la extracción de sangre anterior. Los participantes no fueron tratados, el muestreo se basó en el resultado y se predice un resultado futuro. En consecuencia, el estudio es un estudio de casos y controles (anidado) para evaluar la precisión del pronóstico (véase la tabla 2, figura d).
Limitaciones
Nuestro algoritmo sólo cubre las características básicas de diseño de los estudios de precisión de las pruebas. Existen otros criterios que son importantes para la evaluación del riesgo de sesgo y para la evaluación de la confianza en el conjunto de pruebas. En particular, el método de muestreo es importante a este respecto. Se considera que los estudios de tipo cohorte con una muestra consecutiva o aleatoria (por ejemplo, un brazo de un ensayo controlado aleatorio) proporcionan la información menos sesgada sobre la exactitud de la prueba. Además, la población del estudio debe ser representativa de la población destinataria, de modo que puedan obtenerse medidas de precisión externamente válidas.