Ein Algorithmus für die Klassifizierung von Studiendesigns zur Bewertung der diagnostischen, prognostischen und prädiktiven Testgenauigkeit in systematischen Übersichten
Die Ergebnisse medizinischer Tests sind die wichtigste Informationsquelle für die klinische Entscheidungsfindung. Die Testgenauigkeit ist die Fähigkeit eines Tests, zwischen verschiedenen Patientengruppen zu unterscheiden (z. B. zwischen Gesunden und Kranken). Der erste Schritt bei der Bewertung des Wertes eines medizinischen Tests vor der Durchführung vergleichender Wirkungsstudien (z. B. randomisierte kontrollierte Studien) zu verschiedenen Tests ist die Bewertung der Testgenauigkeit. Wenn es keine Wirkungsstudien gibt, können die Erkenntnisse über die Testgenauigkeit genutzt werden, um die Auswirkungen auf wichtige Patientenergebnisse abzuschätzen, indem die Erkenntnisse über die verschiedenen Behandlungspfade (z. B. keine Behandlung vs. Behandlung), die sich aus den verschiedenen testbasierten Klassifizierungen ergeben, mit den Messwerten für die Testgenauigkeit (z. B. falsch negative Testergebnisse) verknüpft werden.
Der Einsatz von Tests, selbst ein und desselben Tests in der Gesundheitsversorgung, kann hinsichtlich der klinischen Fragestellung (z. B. Diagnose eines Gesundheitszustands, Vorhersage des Therapieerfolgs) und des Zwecks (z. B. Screening oder Überwachung, Behandlungskontrolle oder Staging) sehr vielfältig sein.) Darüber hinaus werden medizinische Tests in der Regel nicht allein, sondern in unterschiedlichen Konstellationen mit anderen Tests eingesetzt, z.B. als Triage vor einem anderen Test, als Add-on zu einem anderen Test oder als Paralleltest zu einem anderen Test.
Neben den vielfältigen Anwendungsbereichen sind Studien zur Testgenauigkeit in der medizinischen Literatur oft unklar gekennzeichnet, was die Unterscheidung zwischen Diagnose, Prognose und Vorhersage (siehe z.B. ) und das zugrunde liegende epidemiologische Studiendesign (siehe z.B. ) betrifft. Diese Aspekte erschweren die korrekte Einordnung des Studiendesigns.
Systematische Übersichtsarbeiten zur Testgenauigkeit (z.B. zur Sensitivität und Spezifität) fassen Testgenauigkeitsmaße aus mehreren Studien zusammen. Eine konsistente und klare Definition der Studiendesigns ist entscheidend für die Qualität bei mehreren Aufgaben der systematischen Übersichtsarbeit. Dazu gehören die Auswahl der Studien, die Wahl des Instruments zur Bewertung des Verzerrungsrisikos, die Entscheidung, welche Studien in einer Metaanalyse zusammengefasst werden sollen, und die Bewertung der Sicherheit der Evidenz.
Im Folgenden schlagen wir einen Algorithmus für die Klassifizierung von Testgenauigkeitsstudien in systematischen Übersichten vor.
Vorüberlegungen
Dieser Algorithmus gilt nur für Studien, die die Ergebnisse eines Indextests (der zu bewertende Test) mit den Ergebnissen eines Referenztests (der Test, dessen Ergebnisse als richtig/der Goldstandard angesehen werden) vergleichen. Die interessierenden Tests müssen eine binäre Klassifizierung ermöglichen, entweder durch Verwendung eines Cut-Offs für eine kategoriale oder kontinuierliche Messung (z. B. hoher vs. niedriger Blutdruck, Score eines prognostischen Modells) oder sie müssen binär sein. Der Algorithmus kann für jeden im Gesundheitswesen verwendeten Test verwendet werden. Bei diesem Test kann es sich um einen einzelnen Test (z. B. Bildgebung) oder eine vordefinierte Kombination (UND- oder ODER-Verknüpfung) von Tests (z. B. Bildgebung und Labor) oder Faktoren (z. B. Symptome, Patientenmerkmale) handeln, die formal in einem diagnostischen oder prognostischen Modell kombiniert werden. Wenn Gutachter den Algorithmus anwenden, sollten sie sich bewusst sein, dass es sich nicht um einen Test im engeren Sinne handeln muss (z. B. Labortests, Diagnosegeräte). Es kann sich auch um eine Beobachtung (z. B. Gesunde), ein medizinisches Verfahren (z. B. allgemeine Gesundheitsuntersuchung) oder eine klinische Beurteilung (z. B. Leichenschau) handeln.
Der Algorithmus kann nicht für Studien zur Testkalibrierung und Studien zur Testzuverlässigkeit (z. B. Test-Retest-Studien) verwendet werden. Der Algorithmus kann ferner nicht für die Klassifizierung von Vergleichs- und Auswirkungsstudien zu Tests verwendet werden. Dabei handelt es sich um alle Studien, die die Genauigkeit von mindestens zwei Tests unter Verwendung desselben Referenzstandards vergleichen, oder um Studien, die die Auswirkungen verschiedener Tests auf die Gesundheitsergebnisse vergleichen (z. B. eine randomisierte kontrollierte Studie, die zwei verschiedene Screening-Strategien hinsichtlich ihrer Auswirkungen auf die Sterblichkeit vergleicht). Es ist jedoch wichtig zu beachten, dass bei vergleichenden Studien zu Tests einzelne Studienarme, in denen ein Test durchgeführt wird, als Studien zur Testgenauigkeit betrachtet werden können (z. B. der Arm einer randomisierten kontrollierten Studie, in dem ein Screening-Test verwendet wird) und somit für die systematischen Übersichten zur Testgenauigkeit (potenziell) relevant sein könnten. Studien, in denen ein relatives Effektmaß berechnet wird, aber kein Testgenauigkeitsmaß berechnet werden kann (z. B. Studien zu prognostischen Faktoren), werden in diesem Papier ebenfalls nicht berücksichtigt, da diese als Studien zu Expositionen (z. B. Fall-Kontroll-Studien) eingestuft werden können. Für diese Expositionsstudien sowie für vergleichende Wirkungsstudien sind an anderer Stelle Klassifikationen beschrieben worden.
Der Klassifikationsalgorithmus
Der Klassifikationsalgorithmus ist in Abb. 1 dargestellt. Die Studiendesigns, die mit dem Algorithmus klassifiziert werden können, sind in Tabelle 2 dargestellt. In den folgenden Abschnitten wird die Anwendung des Algorithmus erläutert. Zur Veranschaulichung kann sich der Leser eine systematische Übersichtsarbeit zur Testgenauigkeit von kognitiven Kurztests für ältere Menschen vorstellen, für die wir in der Beschreibung des Algorithmus Beispiele anführen.
Ist es eine Testgenauigkeitsstudie?
Es ist nicht immer direkt ersichtlich, ob es sich bei der betrachteten Studie tatsächlich um eine Studie zur Testgenauigkeit handelt, da die Studien möglicherweise keine Genauigkeitsmaße angeben, sondern nur Daten liefern, die die Berechnung von Genauigkeitsmaßen ermöglichen (z. B. die Sensitivität des kognitiven Tests für die Diagnose von Demenz). Mit anderen Worten: Die Autoren einer systematischen Übersichtsarbeit müssen prüfen, ob es möglich ist, eine 2 × 2-Kreuztabelle zu berechnen (siehe Tabelle 1). Das erste Kriterium des Algorithmus ist daher die Frage, ob es sich bei der Studie um eine Testgenauigkeitsstudie handelt.
Diagnostische, prognostische oder prädiktive Testgenauigkeit (Quer- oder Längsschnitt)?
Tests im Gesundheitswesen können zur Diagnose, Prognose und/oder Vorhersage eingesetzt werden. Die Diagnose bezieht sich auf die „Wahrscheinlichkeit, dass ein bestimmtes Ergebnis oder eine bestimmte Krankheit bei einer Person zu diesem Zeitpunkt vorliegt (oder nicht vorliegt)“. Das bedeutet, dass in Studien zur diagnostischen Genauigkeit die Testinformationen verwendet werden, um eine Klassifizierung des aktuellen Gesundheitszustands vorzunehmen (z. B. kognitiv beeinträchtigt vs. gesund). Im Gegensatz dazu bezieht sich die „Prognose auf das Risiko (jeglicher) zukünftiger gesundheitlicher Folgen bei Menschen mit einer bestimmten Krankheit oder einem bestimmten Gesundheitszustand“ (z. B. hohes Risiko vs. geringes Risiko, innerhalb eines Jahres zu sterben). Für Tests bedeutet dies, dass Studien zur prognostischen und prädiktiven Genauigkeit das Risiko für die Entwicklung eines Ergebnisses in der Zukunft klassifizieren, das zum Zeitpunkt der Anwendung des Tests noch nicht besteht. Die Prognose kann weiter in prognostische und prädiktive Forschung unterteilt werden. Die Prognose berücksichtigt den natürlichen Verlauf von Krankheiten und beantwortet damit die Frage, wer behandelt werden muss (z. B. besteht nur dann ein Behandlungsbedarf, wenn ein Risiko für die Entwicklung einer Demenz besteht). Die Prognose zielt darauf ab, das Ergebnis bei behandelten Patienten vorherzusagen und beantwortet damit die Frage, wer und wie behandelt werden sollte (z. B. ist ein Kognitionstraining bei Menschen mit leichten kognitiven Beeinträchtigungen nur dann notwendig, wenn eine Chance auf Verbesserung besteht). Im Folgenden werden wir Prognose- und Vorhersagetests gemeinsam betrachten, da beide eine Längsschnittbetrachtung von der Gegenwart in die Zukunft haben und ihre Testgenauigkeit daher mit denselben Studiendesigns bewertet werden kann. Dennoch sollten die Autoren einer systematischen Übersichtsarbeit sorgfältig abwägen, ob die zu bewertende Studie den natürlichen Verlauf von Krankheiten (Prognose) oder behandelte Patienten (Vorhersage) berücksichtigt.
Das zweite Kriterium des Klassifizierungsalgorithmus ist die Frage, ob das Ziel der betrachteten Studie darin besteht, die diagnostische Genauigkeit oder die prognostische/vorhersagende Genauigkeit eines Tests zu bewerten. Da der Hauptunterschied zwischen beiden die zeitliche Komponente ist (aktueller vs. zukünftiger Status), berücksichtigt das zweite Klassifizierungskriterium das Zeitintervall zwischen Index- und Referenztest. Eine Diagnose ist die Klassifizierung eines aktuellen Status. Alle Informationen über einen einzelnen Teilnehmer beziehen sich auf denselben Zeitpunkt (z. B. gibt der kognitive Test an, dass der Patient derzeit an Demenz leidet). Dies bedeutet, dass alle Studien zur diagnostischen Genauigkeit Querschnittscharakter haben. Da eine Diagnose Informationen über einen aktuellen Status liefert, sollten der Referenztest und der Indextest zum gleichen Zeitpunkt durchgeführt werden. Bei der Anwendung dieses Kriteriums ist es wichtig, sich auf den Zeitpunkt der Erhebung von Informationen über den Index- und den Referenztest für einen einzelnen Studienteilnehmer zu beziehen und nicht auf den Zeitpunkt der Datenerhebung für die Studie (z. B. die Überprüfung der Krankenakte zur Verifizierung der Demenzdiagnose), um Verwechslungen zu vermeiden. Beispielsweise könnte ein Patient einen Indextest (z. B. einen kurzen kognitiven Test) in der Primärversorgung erhalten und den Referenztest (z. B. eine umfassende kognitive Beurteilung) bei einem Krankenhausaufenthalt mehrere Monate später. Die Informationen zu beiden Testergebnissen werden aus routinemäßig erhobenen Gesundheitsdaten zum gleichen Zeitpunkt gesammelt (z. B. aus einem Patientenregister für geriatrische Patienten). Obwohl die Daten für die Studie zum gleichen Zeitpunkt aus dem Register erhoben werden, handelt es sich nicht um eine Querschnittsstudie, da Index- und Referenztest nicht zum gleichen Zeitpunkt auf der Ebene der einzelnen Teilnehmer durchgeführt werden. In der Praxis sind die Zeitpunkte, zu denen die Tests durchgeführt werden, in der Regel nicht exakt dieselben. So kann derselbe Zeitpunkt bedeuten, dass sie fast zum selben Zeitpunkt durchgeführt werden (z. B. kurzer kognitiver Test und umfassende kognitive Bewertung beim selben Besuch) oder dass ein Test in der Nähe des anderen durchgeführt wird (z. B. kurzer kognitiver Test und umfassende kognitive Bewertung beim selben Krankenhausaufenthalt). Es sollte beurteilt werden, ob das Zeitintervall in der zu beurteilenden Studie angemessen war, wobei die Wahrscheinlichkeit zu berücksichtigen ist, dass sich der Status des Patienten (z. B. keine kognitive Beeinträchtigung) zwischen dem Index- und dem Referenztest nicht verändert hat. Folglich hängt die akzeptable Verzögerung von der Erkrankung ab und ist bei langsam fortschreitenden Erkrankungen größer als bei schnell fortschreitenden Erkrankungen. Für die Klassifizierung des Studiendesigns bedeutet dies, dass Studien mit einer Verzögerung zwischen Index- und Referenztest auch als Querschnittsstudien eingestuft werden können, wenn begründet werden kann, dass es unwahrscheinlich ist, dass sich der Status geändert hat (z. B. Diagnose einer Alzheimer-Demenz). Da nicht ausgeschlossen werden kann, dass sich der Status des Patienten zwischen den beiden Tests geändert hat, besteht in Studien zur diagnostischen Genauigkeit das Risiko einer Fehlklassifizierung, da sich das Verhältnis der Patientengruppen (z. B. der Anteil, der als kognitiv beeinträchtigt oder nicht kognitiv beeinträchtigt eingestuft wird), das sich aus der Testklassifizierung ergibt, in der Zwischenzeit geändert haben könnte. Wir schlagen vor, dass in systematischen Übersichten zur diagnostischen Testgenauigkeit zwei Zeitintervalle zwischen Index- und Referenztest vorgegeben werden. Eines für die Entscheidung über die Aufnahme in die systematische Übersichtsarbeit und ein weiteres Kriterium (in der Regel ein kleineres Zeitintervall) für die Beurteilung eines geringen/moderaten Risikos einer verzögerten Verifikationsverzerrung. Die Festlegung der Schwellenwerte erfordert in der Regel das Fachwissen eines Methodikers und eines Klinikers.
Eine Prognose/Prädiktion ist eine Klassifizierung eines zukünftigen Zustands. In Studien zur Prognose/Vorhersage wird der Indextest verwendet, um die Teilnehmer nach ihrem Risiko für die Entwicklung eines bestimmten Ergebnisses (z. B. Fortschreiten einer leichten kognitiven Beeinträchtigung zu einer Demenz) oder nach dem Ansprechen auf eine Therapie (z. B. Ansprechen auf ein kognitives Training) zu klassifizieren. Hier wird der Referenztest verwendet, um den Ergebnisstatus zu bewerten. Die Angaben zu den Index- und Referenztestergebnissen für einen einzelnen Teilnehmer beziehen sich auf unterschiedliche Zeitpunkte. Dies bedeutet, dass Studien zur Prognose/Vorhersage immer längsschnittlich sind, da es wiederholte Beobachtungen gibt, nämlich das Ergebnis des Indextests und später die Ergebnisse des Referenztests für jeden Teilnehmer. Im Gegensatz zu Studien zur diagnostischen Genauigkeit sollte das Zeitintervall zwischen Indextest und Referenztest nicht zu kurz, sondern „ausreichend“ lang sein. Das Zeitintervall sollte so gewählt werden, dass, wenn das interessierende Ergebnis nicht eingetreten ist (z. B. negativer Test auf Demenz), es unwahrscheinlich ist, dass es bald danach eintritt (z. B. wird die leichte kognitive Beeinträchtigung in den nächsten Monaten wahrscheinlich nicht zu einer Demenz fortschreiten). Zusätzlich zu einem Lebenszeitraum sind häufig Informationen über bestimmte vordefinierte Zeitintervalle klinisch relevant (z. B. Entwicklung einer Demenz in den nächsten 5 Jahren). In der Forschungspraxis kann die Wahl des Zeitintervalls jedoch eher von der Verfügbarkeit von Daten (z. B. Länge der Nachbeobachtung) als von der klinischen Bedeutung bestimmt werden. Zusätzlich zur Beurteilung der klinischen Relevanz ist das Zeitintervall in der betrachteten Studie entscheidend für die Bewertung des Verzerrungsrisikos. Eine unzureichende Länge der Nachbeobachtung kann in Studien mit unverblindeten Indextestergebnissen zu einer Verzerrung der Vorlaufzeit führen, da bei Teilnehmern mit einem positiven Indextest (z. B. Hinweis auf eine kognitive Beeinträchtigung) das Eintreten eines Ereignisses (z. B. die Entwicklung einer Demenz) vermutet wird. Daher haben Teilnehmer mit einem positiven Indextest oft eine höhere Chance, genauer überwacht zu werden, und folglich auch eine höhere Chance, den Referenztest früher zu erhalten (z. B. durch intensivere Überwachung der kognitiven Funktion) als Teilnehmer mit einem negativen Indextestergebnis. Außerdem kann die Beobachtung von weniger Ereignissen in einer Gruppe falsch sein, wenn das Testergebnis nur mit einer Verzögerung von Ereignissen verbunden ist, aber die Ereignisrate über die gesamte Lebenszeit betrachtet nicht senkt. Daher schlagen wir vor, dass die Autoren systematischer Übersichten, wie bei der Diagnose, zwei Zeitintervalle vorgeben. Eines für die Auswahl von Studien, die je nach dem interessierenden Zeithorizont (z. B. frühe oder späte Progression) ausgewählt werden sollten, und eines für die Beurteilung des Verzerrungsrisikos der Studien. Es ist wichtig anzumerken, dass es unseres Wissens nach für Studien zur prognostischen Genauigkeit kein Instrument zur Bewertung der methodischen Qualität gibt.
Autoren von systematischen Übersichten werden regelmäßig entweder an der diagnostischen Genauigkeit (z. B. Diagnose einer leichten kognitiven Beeinträchtigung) oder an der prognostischen/vorhersagenden Genauigkeit (z. B. Vorhersage einer Demenz bei Patienten mit leichter kognitiver Beeinträchtigung) interessiert sein. Eine Vorspezifizierung der Zeitintervalle für die Auswahl der Studien ist daher sehr wichtig, um diagnostische von prognostischen/vorhersagenden Studien zu unterscheiden, insbesondere weil derselbe Test häufig sowohl für die Diagnose als auch für die Prognose/Vorhersage verwendet werden kann (siehe z. B. ). Dies bedeutet, dass die klinische Fragestellung nicht immer aus dem Test selbst abgeleitet werden kann, sondern dass nur das Zeitintervall zwischen dem Indextest und dem Referenztest angibt, ob es sich um eine Studie mit konkurrierender oder prädiktiver Genauigkeit handelt. Darüber hinaus kann die Unterscheidung schwierig sein, weil der Übergang von der verzögerten Verifizierung zur Prognose/Prädiktion fließend sein kann.
Wenn Autoren einer systematischen Übersichtsarbeit davon überzeugt sind, dass der Test ausschließlich entweder für die Diagnose oder für die Prognose/Prädiktion verwendet werden kann, können sie nur den jeweiligen (Diagnose, Prognose/Prädiktion) Pfad des Algorithmus verwenden.
Kohortenartige oder Fall-Kontroll-Auswahl der Teilnehmer?
Das zweite Kriterium unterscheidet Kohortenstudien von Fall-Kontroll-Studien und kann für diagnostische Genauigkeitsstudien in ähnlicher Weise angewendet werden wie für prognostische/vorhersagende Genauigkeitsstudien.
Im Allgemeinen unterscheiden sich Kohortenstudien und Fall-Kontroll-Studien durch die Methode der Auswahl der Teilnehmer für die Studie. Bei kohortenbasierten Studien zur Testgenauigkeit werden die Teilnehmer auf Verdacht hin rekrutiert. Mit Verdacht ist gemeint, dass es eine Indikation für die Durchführung des Tests gibt, einschließlich Anzeichen und Symptome, das Vorhandensein von Risikofaktoren (z. B. Patientenmerkmale, Umgebung) oder Ergebnisse früherer medizinischer Tests.
Theoretisch könnten bei einem Bevölkerungsscreening Personen ausgewählt werden, unabhängig davon, ob es eine Indikation dafür gibt oder nicht. In der Praxis ist dies jedoch nicht der Regelfall, sondern auch in den meisten bevölkerungsbezogenen Screening-Programmen gibt es zumindest eine vage Indikation zur Durchführung eines Tests (z. B. bestimmte Altersgruppe, Geschlecht). Bei Kohortenstudien erhalten alle verdächtigen Teilnehmer den Indextest und den Referenztest, um ihren aktuellen Status (Diagnose) zu bestimmen oder ihren Ergebnisstatus (Prognose/Vorhersage) zu bewerten. In diagnostischen Kohortenstudien werden der Indextest und der Referenztest zur gleichen Zeit durchgeführt. Diese Querschnittsbeziehung impliziert, dass die Reihenfolge des Referenz- und des Indextests unterschiedlich sein kann, solange die Tests (fast) gleichzeitig oder ohne allzu große Verzögerung durchgeführt werden (siehe oben). So können der Referenz- und der Indextest gleichzeitig durchgeführt werden, der Referenztest kann nach dem Indextest durchgeführt werden oder der Indextest kann nach dem Referenztest durchgeführt werden. Bei Kohortenstudien zur prognostischen/vorhersagenden Genauigkeit impliziert die Längsschnittbeziehung, dass der Indextest immer vor dem Referenztest durchgeführt wird.
In Fall-Kontroll-Studien basiert die Auswahl der Teilnehmer auf dem Gesundheitszustand/Ergebnis. Die Ergebnisse des Indextests von Teilnehmern mit einem positiven Referenztestergebnis/Ereignis (Fälle) werden mit den Ergebnissen des Indextests von Teilnehmern mit einem negativen Referenztestergebnis/Ereignis (Kontrollen) verglichen. Ähnlich wie bei Fall-Kontroll-Studien zu Expositionen oder Interventionen können Fälle und Kontrollen aus derselben Quelle (z. B. einem Register) oder aus unterschiedlichen Quellen (z. B. Fälle aus einem Alzheimer-Register und Kontrollen aus einer Verwaltungsdatenbank) stammen. In Fall-Kontroll-Studien zur diagnostischen Genauigkeit wird der Referenztest auf der Ebene des einzelnen Teilnehmers immer vor dem Indextest durchgeführt, aber die Betrachtung/Interpretation (z. B. retrospektive Akteneinsicht) der Ergebnisse des Indextests ist immer retrospektiv. Es ist wichtig zu beachten, dass in Fall-Kontroll-Designs keine prädiktiven Werte berechnet werden können, da die Prävalenz/Inzidenz (Spaltensumme in der 2 × 2-Tabelle der mit dem Referenztest positiv und negativ eingestuften Teilnehmer) ein künstliches Ergebnis des Designs ist (z. B. 50 % beim 1:1-Fall-Kontroll-Matching).
Wir schlagen vor, Studien zur diagnostischen Genauigkeit mit verdachtsbasierter Patientenselektion als „kohortenselektierte Querschnittsstudien“ und Studien mit fallbasierter Stichprobe als „fallkontrollselektierte Querschnittsstudien“ zu bezeichnen. Diese Kennzeichnung gewährleistet eine klare Abgrenzung zu Längsschnittstudien und gibt die Methode der Teilnehmerauswahl an. Obwohl wir uns bewusst sind, dass die Kombination der Bezeichnungen „Kohortenstudie“ und „Querschnittsstudie“ praktisch widersprüchlich erscheint, sind wir der Meinung, dass diese Bezeichnung einer völlig neuen Kennzeichnung vorzuziehen ist, da die meisten Gutachter mit diesen Standard-Selektionsmethoden vertraut sind.
Abbildung a und c in Tabelle 2 veranschaulichen das Design einer „kohortenselektierten Querschnittsstudie“ bzw. einer „fallkontrollselektierten Querschnittsstudie“.
Die aus einem Indextest resultierenden Klassifizierungen (z.B. positiv versus negativ) zur Beurteilung der Prognose/Prädiktion können als unterschiedliche Expositionen (z.B. hohes Risiko für die Entwicklung einer Demenz vs. geringes Risiko für die Entwicklung einer Demenz) betrachtet werden und der Beobachtungszeitraum ist longitudinal. Der einzige Unterschied zu den klassischen Kohorten- und Fall-Kontroll-Studien in der Epidemiologie ist das Effektmaß (Testgenauigkeitsmaße anstelle von Risikoverhältnissen). Daher schlagen wir vor, prognostische/prädiktive Genauigkeitsstudien auf die gleiche Weise zu bezeichnen, nämlich als „Kohortenstudien“ und „Fall-Kontroll-Studien“.
Abbildung b und d in Tabelle 2 veranschaulichen das Design einer „Kohortenstudie“ bzw. einer „Fall-Kontroll-Studie“.
Beide Testgenauigkeitsstudien können auf Daten basieren, die speziell für die Studie erhoben wurden (d.h. eine Studiendatenbank) oder auf bereits vorhandenen Datenquellen (z.B. routinemäßig erhobene Daten). Häufig wird die Klassifizierung retrospektiv/prospektiv verwendet, um zu unterscheiden, ob die Daten speziell für die Studie erhoben wurden oder eine bereits vorhandene Datenquelle verwendet wurde. Wir empfehlen, diese Klassifizierung aus zwei Gründen zu vermeiden. Erstens haben Studien oft sowohl prospektive (z. B. Analyseplan) als auch retrospektive Aspekte (z. B. Datenerhebung). Zweitens würde dies insbesondere bei Studien zur diagnostischen Genauigkeit zu umständlichen Klassifizierungen führen (z. B. retrospektive Querschnittsstudie). Stattdessen sollte die für die Studie verwendete Datenquelle in der systematischen Übersichtsarbeit klar beschrieben werden.
Illustrierende Beispiele
Tabelle 3 zeigt ein illustrierendes Beispiel für jeden Studientyp zur Testgenauigkeit. In Beispielstudie 1 erhielten alle Nierentransplantatempfänger im Alter von mindestens 50 Jahren einen fäkalen immunchemischen Test (Indextest) zur Darmkrebsvorsorge. Im Anschluss an den immunochemischen Stuhltest wurden die Patienten zur Koloskopie (Referenztest) überwiesen. In dieser Studie erfolgte die Probenahme auf Verdacht (Nierentransplantatempfänger). Der Index-Test und der Referenztest wurden zum gleichen Zeitpunkt durchgeführt (die Krankheit ist wahrscheinlich noch nicht fortgeschritten). Folglich handelt es sich bei dieser Studie um eine Kohortenstichproben-Querschnittsstudie zur diagnostischen Genauigkeit (siehe Tabelle 2, Abbildung a).
Im zweiten Beispiel wurden Patienten mit einer klinischen Diagnose (Referenztest) von Alzheimer (Fälle), die eine Gedächtnisklinik besuchten, mit Teilnehmern ohne Alzheimer gematcht, die aus Angehörigen rekrutiert wurden, die die Patienten in die Gedächtnisklinik begleiteten (keine Krankheit, Kontrollen). Sowohl die Patienten als auch die Angehörigen erhielten während des Besuchs in der Gedächtnisklinik einen kognitiven Test (Index-Test). Die Auswahl der Teilnehmer basierte in der einen Gruppe auf der Erkrankung und in der anderen auf der Abwesenheit von Erkrankungen. Obwohl der Referenztest zu einem anderen Zeitpunkt als der Indextest durchgeführt wurde, kann er als derselbe Zeitpunkt angesehen werden, da die Krankheit noch nicht abgeklungen sein kann, d. h. noch immer ein aktueller Zustand ist. Folglich handelt es sich bei dieser Studie um eine Fall-Kontroll-Stichproben-Querschnittsstudie zur diagnostischen Genauigkeit (siehe Tabelle 2 Abbildung c).
Das dritte Beispiel untersucht alle Patienten zwischen 50 und 90 Jahren (Verdacht) in einer Gesundheitsorganisation eines Kostenträgers. In der Studie wurden Patientenmerkmale und andere Faktoren formal in einem Prognosemodell kombiniert. Das Prognosemodell berechnet einen Score, der anhand verschiedener Cut-offs dichotomisiert wird (Index-Test). Für jeden Teilnehmer wurde das Risiko, innerhalb von 5 Jahren eine Fraktur zu entwickeln (zukünftiges Ereignis), vorhergesagt. Die Stichprobenziehung erfolgte auf Verdacht, und es wurde ein zukünftiges Ergebnis vorhergesagt. Obwohl es aus der Veröffentlichung nicht ganz klar hervorgeht, kann davon ausgegangen werden, dass die meisten Patienten nicht wegen Osteoporose behandelt wurden. Folglich handelt es sich bei der Studie um eine Kohortenstudie zur Bewertung der prognostischen Genauigkeit (siehe Tabelle 2, Abbildung b).
Die letzte Beispielstudie umfasste Männer im Alter von mindestens 40 Jahren (Verdacht), die Ergebnisse einer Blutentnahme aus einer größeren bevölkerungsbasierten Kohortenstudie hatten. Patienten mit Prostatakrebs (Ergebnisereignis) wurden entnommen und mit Patienten ohne Prostatakrebs (kein Ergebnisereignis, Kontrollen) abgeglichen. Die Prostata-spezifischen Antigen-Werte (Index-Test) der vorherigen Blutabnahme wurden kategorisiert und verglichen. Die Teilnehmer waren unbehandelt, die Stichprobenziehung basierte auf dem Ergebnis und ein zukünftiges Ergebnis wurde vorhergesagt. Folglich handelt es sich bei der Studie um eine (verschachtelte) Fall-Kontroll-Studie zur Beurteilung der prognostischen Genauigkeit (siehe Tabelle 2 Abbildung d).
Grenzwerte
Unser Algorithmus deckt nur die grundlegenden Designmerkmale von Studien zur Testgenauigkeit ab. Es gibt weitere Kriterien, die für die Bewertung des Verzerrungsrisikos und für die Beurteilung des Vertrauens in die Evidenzlage wichtig sind. Insbesondere die Stichprobenmethode ist in dieser Hinsicht wichtig. Es wird davon ausgegangen, dass Kohortenstudien mit einer konsekutiven oder zufälligen Stichprobe (z. B. ein Arm einer randomisierten kontrollierten Studie) die am wenigsten verzerrten Informationen zur Testgenauigkeit liefern. Darüber hinaus sollte die Studienpopulation repräsentativ für die Zielpopulation sein, damit extern gültige Genauigkeitsmessungen durchgeführt werden können.