Un algorithme pour la classification des plans d’étude pour évaluer la précision des tests diagnostiques, pronostiques et prédictifs dans les revues systématiques

Sep 8, 2021
admin

Les résultats des tests médicaux sont la principale source pour informer la prise de décision clinique. La précision des tests est la capacité d’un test à discriminer entre différents groupes de patients (par exemple, sains et malades). La première étape de l’évaluation de la valeur d’un test médical avant de réaliser des études d’impact comparatives (par exemple, des essais contrôlés randomisés) sur différents tests est l’évaluation de la précision du test. De plus, en l’absence d’études d’impact, les preuves de la précision des tests peuvent être utilisées pour estimer les effets sur les résultats importants pour le patient en reliant les preuves des différents parcours de soins (par exemple, pas de traitement ou traitement) résultant des différentes classifications basées sur les tests aux mesures de la précision des tests (par exemple, résultats faussement négatifs).L’utilisation d’un test, voire d’un même test dans les soins de santé, peut être multiple en ce qui concerne la question clinique (par exemple, le diagnostic d’un état de santé, la prédiction du succès d’une thérapie) et l’objectif (par exemple, le dépistage ou la surveillance, le suivi du traitement ou la mise en scène). En outre, les tests médicaux ne sont généralement pas utilisés seuls, mais dans différentes constellations avec d’autres tests, y compris le triage avant un autre test, l’ajout à un autre test et le test parallèle avec un autre test.

En plus des multiples domaines d’application, les études sur la précision des tests sont souvent mal étiquetées dans la littérature médicale en ce qui concerne la différenciation entre le diagnostic, le pronostic et la prédiction (par exemple, voir ), et en ce qui concerne la conception de l’étude épidémiologique sous-jacente (par exemple, voir ). Ces aspects compliquent la classification correcte de la conception de l’étude.

Les revues systématiques sur la précision des tests (par exemple sur la sensibilité et la spécificité) résument les mesures de précision des tests de plusieurs études. Une définition cohérente et claire des plans d’étude est essentielle pour la qualité de plusieurs tâches de la revue systématique. Cela inclut la sélection des études, le choix de l’outil pour l’évaluation du risque de biais, la décision des études à regrouper dans la même méta-analyse et l’évaluation de la certitude de l’ensemble des preuves.

Dans ce qui suit, nous proposons un algorithme pour la classification des études sur la précision des tests dans les revues systématiques.

Considérations préliminaires

Cet algorithme ne s’applique qu’aux études comparant les résultats d’un test index (le test à évaluer) avec les résultats d’un test de référence (le test dont les résultats sont considérés comme corrects/le gold standard). Les tests d’intérêt doivent permettre une classification binaire, soit en utilisant un seuil pour une mesure catégorique ou continue (par exemple, pression artérielle élevée ou basse, score d’un modèle pronostique) ou être de nature binaire. L’algorithme peut être utilisé pour tout test utilisé dans le domaine de la santé. Ce test peut être un test unique (par exemple, l’imagerie) ou une combinaison prédéfinie (lien ET ou OU) de tests (par exemple, l’imagerie et le laboratoire) ou de facteurs (par exemple, les symptômes, les caractéristiques du patient) qui sont formellement combinés dans un modèle de diagnostic ou de pronostic . Lorsque les évaluateurs appliquent l’algorithme, ils doivent être conscients que le test ne doit pas être un test au sens strict (par exemple, des tests de laboratoire, des dispositifs de diagnostic). Il peut également s’agir d’une observation (par exemple, en bonne santé), d’une procédure médicale (par exemple, un contrôle de santé général) ou d’une évaluation clinique (par exemple, l’inspection du cadavre).

L’algorithme ne peut pas être utilisé pour les études sur l’étalonnage des tests et les études sur la fiabilité des tests (par exemple, les études test-retest). L’algorithme ne peut pas non plus être utilisé pour classer les études comparatives et d’impact sur les tests. Il s’agit de toutes les études qui comparent la précision d’au moins deux tests utilisant la même norme de référence ou des études qui comparent l’impact de différents tests sur les résultats de santé (par exemple, un essai contrôlé randomisé qui compare deux stratégies de dépistage différentes en ce qui concerne l’impact sur la mortalité). Cependant, il est important de considérer que dans les études comparatives sur les tests, les bras uniques de l’étude dans lesquels un test est réalisé peuvent être considérés comme des études sur la précision des tests (par exemple, le bras d’un essai contrôlé randomisé dans lequel un test de dépistage est utilisé) et peuvent donc être (potentiellement) pertinents pour les revues systématiques sur la précision des tests. Les études dans lesquelles une mesure de l’effet relatif est calculée mais aucune mesure de la précision du test ne peut être calculée (par exemple, les études sur les facteurs pronostiques) ne sont pas non plus considérées dans ce document car elles peuvent être classées comme des études sur les expositions (par exemple, les études cas-témoins). Pour ces études sur les expositions ainsi que les études d’impact comparatif, les classifications ont été décrites ailleurs .

L’algorithme de classification

L’algorithme de classification est présenté dans la figure 1. Les modèles d’étude qui peuvent être classés avec l’algorithme sont présentés dans le tableau 2. Dans les paragraphes suivants, l’application de l’algorithme est expliquée. À titre d’illustration, le lecteur peut imaginer une revue systématique sur la précision des tests de brèves épreuves cognitives pour les personnes âgées pour laquelle nous fournissons des exemples tout au long de la description de l’algorithme.

Fig. 1
figure1

Algorithme de classification des descriptifs d’étude de précision des tests

S’agit-il d’une étude de précision des tests ?

Il n’est pas toujours directement évident de savoir si l’étude considérée est bien une étude de précision des tests car les études peuvent ne pas rapporter des mesures de précision mais seulement fournir des données permettant de calculer des mesures de précision (par exemple, la sensibilité du test cognitif pour le diagnostic de la démence). En d’autres termes, les auteurs de revues systématiques doivent vérifier s’il est possible de calculer un tableau croisé 2 × 2 (voir tableau 1). Par conséquent, le premier critère de l’algorithme est la question de savoir si l’étude est une étude sur l’exactitude des tests.

Tableau 1 Tableau croisé 2 × 2 pour le calcul des mesures d’exactitude des tests

Exactitude des tests diagnostiques, pronostiques ou prédictifs (transversaux ou longitudinaux)?

Les tests dans les soins de santé peuvent être utilisés pour le diagnostic, le pronostic et/ou la prédiction. Le diagnostic fait référence à la  » probabilité qu’un résultat ou une maladie spécifique soit présent (ou absent) chez un individu, à ce moment précis  » . Cela signifie que, dans les études sur la précision du diagnostic, les informations du test sont utilisées pour classer l’état de santé actuel (par exemple, déficience cognitive ou santé). En revanche, « le pronostic se réfère au risque de (tout) résultat futur sur la santé chez les personnes atteintes d’une maladie ou d’un état de santé donné » (par exemple, risque élevé ou faible de mourir dans l’année). Pour les tests, cela signifie que les études de précision pronostique et prédictive classent le risque de développer un résultat dans le futur, qui n’est pas présent au moment où le test est appliqué. Le pronostic peut être subdivisé en recherches pronostiques et prédictives. Le pronostic tient compte de l’évolution naturelle des maladies et répond ainsi à la question de savoir qui a besoin d’un traitement (par exemple, un traitement n’est nécessaire que s’il existe un risque de développer une démence). La prédiction vise à prévoir le résultat chez les patients traités et répond ainsi à la question de savoir qui et comment doit être traité (par exemple, l’entraînement cognitif chez les personnes souffrant de troubles cognitifs légers n’est nécessaire que s’il y a une chance d’amélioration). Dans ce qui suit, nous considérerons les tests de pronostic et de prédiction ensemble, car ils ont tous deux une vision longitudinale du présent au futur et leur précision peut donc être évaluée avec les mêmes plans d’étude. Néanmoins, les auteurs de revues systématiques doivent soigneusement considérer si l’étude évaluée considère l’évolution naturelle des maladies (pronostic) ou considère les patients traités (prédiction).

Le deuxième critère de l’algorithme de classification est la question de savoir si l’objectif de l’étude considérée est d’évaluer la précision diagnostique ou la précision pronostique/prédictive d’un test. Comme la principale différence entre les deux est la composante temporelle (état actuel par rapport à l’état futur), le deuxième critère de classification prend en compte l’intervalle de temps entre le test d’indexation et le test de référence. Un diagnostic est la classification d’un état actuel. Toutes les informations concernant un participant individuel se réfèrent au même point dans le temps (par exemple, un test cognitif indique que le patient est actuellement atteint de démence). Cela implique que toutes les études sur la précision du diagnostic sont de nature transversale. Étant donné qu’un diagnostic fournit des informations sur un état actuel, le test de référence et le test indexé doivent être effectués au même moment. Lors de l’application de ce critère, il est important de se référer au moment de la collecte des informations sur le test de référence et le test index pour un participant individuel à l’étude et non au moment de la collecte des données pour l’étude (par exemple, l’examen du dossier pour vérifier le diagnostic de démence) pour éviter toute confusion. Par exemple, un patient peut recevoir un test d’indexation (par exemple, un bref test cognitif) dans le cadre des soins primaires et le test de référence (par exemple, une évaluation cognitive complète) lors d’une hospitalisation plusieurs mois plus tard. Les informations sur les résultats des deux tests sont recueillies à partir de données de soins de santé collectées de manière routinière au même moment (par exemple, un registre de patients gériatriques). Bien que les données de l’étude soient collectées au même moment dans le registre, l’étude n’est pas transversale car le test d’indexation et le test de référence ne sont pas effectués au même moment au niveau du participant individuel. Dans la pratique, les points de temps auxquels les tests sont effectués ne sont généralement pas exactement les mêmes. Ainsi, le même moment peut signifier presque le même moment (par exemple, un test cognitif bref et une évaluation cognitive complète lors de la même visite) ou qu’un test est effectué à proximité de l’autre (par exemple, un test cognitif bref et une évaluation cognitive complète lors du même séjour à l’hôpital). Il convient de juger si l’intervalle de temps dans l’étude évaluée était adéquat, compte tenu de la probabilité que l’état du patient (par exemple, absence de troubles cognitifs) n’ait pas changé entre le test d’indexation et le test de référence. Par conséquent, le délai acceptable dépend de la pathologie et est plus important dans les pathologies à évolution lente que dans celles à évolution rapide. Pour la classification de la conception de l’étude, cela signifie que, si l’on peut justifier qu’il est improbable que l’état ait changé (par exemple, un diagnostic de démence d’Alzheimer), les études avec un délai entre l’indice et le test de référence pourraient également être classées comme transversales. Comme il ne peut être exclu que le statut du patient ait changé entre les deux tests, il existe un risque de biais de classification erronée dans les études de précision diagnostique, car le rapport entre les groupes de patients (par exemple, la proportion classée en tant que déficience cognitive ou non) résultant de la classification du test pourrait avoir changé entre-temps. Nous suggérons que deux intervalles de temps entre l’index et le test de référence soient pré-spécifiés dans les revues systématiques sur la précision des tests diagnostiques. L’un pour la décision d’inclusion dans la revue systématique et l’autre (généralement un intervalle de temps plus petit) pour juger du risque faible/modéré de biais de vérification tardive. La spécification des seuils nécessiterait généralement l’expertise d’un méthodologiste et d’un clinicien.

Un pronostic/prédiction est une classification d’un état futur. Dans les études sur le pronostic/la prédiction, le test de référence est utilisé pour classer les participants en fonction de leur risque de développer un certain résultat (par exemple, la progression d’une déficience cognitive légère vers une démence), ou une réponse thérapeutique (par exemple, une réponse à un entraînement cognitif). Ici, le test de référence est utilisé pour évaluer le statut de l’issue. Les informations relatives aux résultats de l’indice et du test de référence pour un participant individuel se rapportent à des points temporels différents. Cela implique que les études sur le pronostic/la prédiction sont toujours longitudinales car il y a des observations répétées, à savoir le résultat du test d’indexation et, plus tard, les résultats du test de référence pour chaque participant. Contrairement aux études sur la précision du diagnostic, l’intervalle de temps entre le test index et le test de référence ne doit pas être trop court mais « suffisamment » long. L’intervalle de temps doit être choisi de telle sorte que, si le résultat d’intérêt ne s’est pas produit (par exemple, un test négatif pour la démence), il est improbable qu’il se produise peu de temps après (par exemple, la déficience cognitive légère n’évoluera probablement pas en démence dans les prochains mois). En plus d’une période de vie, des informations sur certains intervalles de temps prédéfinis sont souvent cliniquement pertinentes (par exemple, le développement d’une démence dans les 5 prochaines années). Toutefois, dans la pratique de la recherche, le choix de l’intervalle de temps peut être guidé plutôt par la disponibilité des données (par exemple, la durée du suivi) que par l’importance clinique. En plus du jugement de la pertinence clinique, l’intervalle de temps dans l’étude considérée est critique pour l’évaluation du risque de biais. Une durée de suivi insuffisante peut entraîner un biais d’anticipation dans les études avec des résultats de tests d’indexation sans insu, car chez les participants ayant un test d’indexation positif (par exemple, une indication de déficience cognitive), la survenue d’un événement est suspectée (par exemple, le développement d’une démence). Par conséquent, les participants dont le test d’indexation est positif ont souvent plus de chances d’être surveillés de plus près et, par conséquent, ont également plus de chances de recevoir le test de référence plus tôt (par exemple, par une surveillance plus intensive de la fonction cognitive) que les participants dont le test d’indexation est négatif. De plus, l’observation d’un nombre moindre d’événements dans un groupe peut être fallacieuse si le résultat du test n’est associé qu’à un retardement des événements mais ne réduit pas le taux d’événements sur une période de vie. Par conséquent, comme pour le diagnostic, nous suggérons que les auteurs de revues systématiques spécifient au préalable deux intervalles de temps. L’un pour sélectionner les études qui devraient être choisies en fonction de l’horizon temporel d’intérêt (par exemple, progression précoce ou tardive) et l’autre pour juger du risque de biais des études. Il est important de noter qu’à notre connaissance, pour les études sur la précision pronostique, aucun outil d’évaluation de la qualité méthodologique n’existe.

Les auteurs de revues systématiques s’intéresseront régulièrement à la précision diagnostique (par exemple, le diagnostic de la déficience cognitive légère) ou à la précision pronostique/prédictive (par exemple, la prédiction de la démence chez les patients atteints de déficience cognitive légère). Une préspécification des intervalles de temps pour la sélection des études est donc très importante pour distinguer les études diagnostiques des études pronostiques/prédictives, en particulier parce que le même test peut souvent être utilisé pour le diagnostic et le pronostic/la prédiction (voir par exemple ). Cela signifie que la question clinique ne peut pas toujours être déduite du test lui-même, mais que seul l’intervalle de temps entre le test d’indexation et le test de référence indique si l’étude porte sur la précision concurrente ou prédictive. De plus, la distinction pourrait être difficile car le passage de la vérification différée au pronostic/prédiction peut être fluide.

Si les auteurs de revues systématiques sont convaincus que le test peut exclusivement être utilisé soit pour le diagnostic soit pour le pronostic/prédiction, ils peuvent utiliser uniquement le chemin respectif (diagnostic, pronostic/prédiction) de l’algorithme.

Sélection des participants de type cohorte ou cas-témoins ?

Le deuxième critère distingue les études de type cohorte des études de type cas-témoins et peut être appliqué pour les études de précision diagnostique de la même manière que pour les études de précision pronostique/prédictive.

En général, les études de type cohorte et les études de type cas-témoins se distinguent par la méthode de sélection des participants à l’étude . Dans les études de précision des tests de type cohorte, les participants sont recrutés sur la base de la suspicion. Par suspicion, nous entendons qu’il existe une indication pour effectuer le test, y compris des signes et des symptômes, la présence de facteurs de risque (par exemple, les caractéristiques du patient, l’environnement) ou les résultats de tests médicaux antérieurs.

Théoriquement, dans le cadre d’un dépistage de population, les personnes pourraient être sélectionnées indépendamment du fait qu’il existe une indication pour le faire ou non. Cependant, en pratique, ce n’est pas le cas habituel, mais aussi dans la plupart des programmes de dépistage en population, il y a au moins une vague indication pour effectuer un test (par exemple, un certain groupe d’âge, le sexe). Dans les études de type cohorte, tous les participants suspects reçoivent le test index et le test de référence afin de déterminer leur statut actuel (diagnostic) ou d’évaluer leur statut de résultat (pronostic/prédiction). Dans les études de type cohorte diagnostique, le test index et le test de référence sont réalisés en même temps. Cette relation transversale implique que l’ordre du test de référence et du test d’indexation peut différer tant que les tests sont effectués (presque) en même temps ou sans trop de retard (voir ci-dessus). Ainsi, le test de référence et le test d’index peuvent être effectués simultanément, le test de référence peut être effectué après le test d’index ou le test d’index peut être effectué après le test de référence. Pour les études de type cohorte sur la précision pronostique/prédictive, la relation longitudinale implique que le test d’indexation est toujours effectué avant le test de référence.

Dans les conceptions cas-témoins, la sélection des participants est basée sur l’état de santé/les résultats. Les résultats du test d’indexation des participants ayant un résultat/événement positif au test de référence (cas) sont comparés aux résultats du test d’indexation des participants ayant un résultat négatif au test de référence/aucun événement (témoins). Comme dans les études cas-témoins sur les expositions ou les interventions, les cas et les témoins peuvent provenir de la même source (par exemple, un registre) ou de sources différentes (par exemple, les cas d’un registre de la maladie d’Alzheimer et les témoins d’une base de données administrative). Dans les études cas-témoins sur l’exactitude du diagnostic, le test de référence au niveau du participant individuel est toujours effectué avant le test d’indexation, mais la vue/interprétation (par exemple, l’examen rétrospectif des dossiers) des résultats du test d’indexation est toujours rétrospective. Il est important de noter que dans les conceptions cas-témoins, aucune valeur prédictive ne peut être calculée car la prévalence/incidence (somme des colonnes dans le tableau 2 × 2 des participants classés positifs et négatifs avec le test de référence) est un résultat artificiel de la conception (par exemple 50% dans l’appariement cas-témoins 1:1).

Nous suggérons d’étiqueter les études de précision diagnostique avec une sélection des patients basée sur la suspicion « études transversales sélectionnées par cohorte » et les études avec un échantillonnage basé sur les cas « études transversales sélectionnées par cas-témoins ». Cet étiquetage permet de différencier clairement les modèles d’études longitudinales et d’indiquer la méthode de sélection des participants. Bien que, nous sommes conscients que la combinaison des étiquettes cohorte et transversale semble virtuellement contraire, nous pensons que l’étiquetage de cette façon est préférable à un étiquetage complètement nouveau parce que la plupart des examinateurs sont familiers avec ces méthodes de sélection standard.

Les figures a et c du tableau 2 illustrent la conception d’une « étude transversale de sélection de cohorte » et d’une « étude transversale de sélection de cas-témoins », respectivement.

Tableau 2 Modèles d’étude pour évaluer la précision des tests

Les classifications (par exemple, positif versus négatif) résultant d’un test d’indexation pour juger du pronostic/de la prédiction peuvent être considérées comme différentes expositions (par exemple, risque élevé de développer une démence vs faible risque de développer une démence) et la période d’observation est longitudinale. La seule différence par rapport à l’étude classique de cohorte et de cas-témoins en épidémiologie est la mesure de l’effet (mesures de la précision du test au lieu des rapports de risque). Par conséquent, nous suggérons d’étiqueter les études de précision pronostique/prédictive de la même manière, à savoir « études de cohorte » et « études cas-témoins ».

Les figures b et d du tableau 2 illustrent la conception d’une « étude de cohorte » et d’une « étude cas-témoins », respectivement.

Les études de précision des tests pourraient être basées sur des données spécifiquement collectées pour l’étude (c’est-à-dire une base de données d’étude) ou sur des sources de données déjà existantes (par exemple, des données collectées de manière routinière). La classification rétrospective/prospective est souvent utilisée pour distinguer si les données ont été collectées spécifiquement pour l’étude ou si une source de données déjà existante a été utilisée. Nous recommandons d’éviter cette classification pour deux raisons. Premièrement, les études comportent souvent des aspects prospectifs (par exemple, le plan d’analyse) et rétrospectifs (par exemple, la collecte des données). Deuxièmement, en particulier pour les études de précision diagnostique, cela conduirait à des classifications lourdes (par exemple, étude transversale rétrospective). Au lieu de cela, la source de données utilisée pour l’étude devrait être clairement décrite dans l’examen systématique.

Exemples illustratifs

Le tableau 3 présente un exemple illustratif pour chaque type d’étude de précision des tests. Dans l’exemple d’étude 1 , tous les transplantés rénaux âgés d’au moins 50 ans ont reçu un test immunochimique fécal (test index) pour le dépistage du cancer colorectal. Après le test immunochimique fécal, les patients ont été orientés vers une coloscopie (test de référence). Dans cette étude, l’échantillonnage était basé sur la suspicion (transplantés rénaux). Le test index et le test de référence ont été réalisés au même moment (la maladie n’a probablement pas progressé). Par conséquent, cette étude est une étude transversale d’échantillonnage de cohorte sur la précision du diagnostic (voir tableau 2 figure a).

Tableau 3 Exemples pour les différents types d’études de précision

Dans le deuxième exemple , les patients avec un diagnostic clinique (test de référence) d’Alzheimer (cas) fréquentant une clinique de la mémoire ont été appariés à des participants sans Alzheimer, qui ont été recrutés parmi les parents accompagnant les patients à la clinique de la mémoire (pas de maladie, contrôles). Les patients ainsi que les proches ont subi un test cognitif (test de référence) lors de la visite à la clinique de la mémoire. L’échantillonnage des participants était basé sur la maladie dans un groupe et l’absence de maladie dans l’autre. Bien que le test de référence ait été effectué à un autre moment que le test d’indexation, il peut être considéré comme le même point dans le temps car la maladie n’a pas pu être résolue, c’est-à-dire qu’elle est toujours d’actualité. Par conséquent, cette étude est une étude de précision diagnostique transversale d’échantillonnage cas-témoin (voir tableau 2 figure c).

Le troisième exemple examine tous les patients âgés de 50 à 90 ans (suspicion) dans une organisation de santé prestataire payeur. Dans cette étude, les caractéristiques des patients et d’autres facteurs sont formellement combinés dans un modèle pronostique. Le modèle pronostique calcule un score qui est dichotomisé à l’aide de différents seuils (test d’indice). Pour chaque participant, le risque de développer des fractures dans les 5 ans (événement futur) a été prédit. L’échantillonnage était basé sur la suspicion et un résultat futur était prédit. Bien que cela ne soit pas totalement clair dans la publication, on peut supposer que la plupart des patients n’étaient pas traités pour l’ostéoporose. Par conséquent, il s’agit d’une étude de cohorte visant à évaluer la précision du pronostic (voir tableau 2 figure b).

Le dernier exemple d’étude incluait des hommes d’au moins 40 ans (suspicion), dont les résultats d’une prise de sang provenaient d’une plus grande étude de cohorte basée sur la population. Les patients atteints d’un cancer de la prostate (événement de résultat) ont été échantillonnés et appariés à des patients sans cancer de la prostate (sans événement de résultat, témoins). Les niveaux d’antigène spécifique de la prostate (test d’indexation) de la prise de sang précédente ont été catégorisés et comparés. Les participants n’étaient pas traités, l’échantillonnage était basé sur le résultat et un résultat futur est prédit. Par conséquent, l’étude est une étude cas-témoins (emboîtée) pour évaluer la précision pronostique (voir tableau 2 figure d).

Limitations

Notre algorithme ne couvre que les caractéristiques de conception de base des études de précision des tests. Il existe d’autres critères qui sont importants pour l’évaluation du risque de biais et pour l’évaluation de la confiance dans le corpus de preuves. En particulier, la méthode d’échantillonnage est importante à cet égard. Les études de type cohorte avec un échantillon consécutif ou aléatoire (par exemple, un bras d’un essai contrôlé randomisé) sont considérées comme fournissant des informations moins biaisées sur la précision du test. En outre, la population étudiée doit être représentative de la population cible afin que des mesures de précision valides en externe puissent être obtenues.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.