An algorithm for the classification of study designs to assess diagnostic, prognostic and predictive test accuracy in systematic reviews
Resultaten van medische tests zijn de belangrijkste bron om klinische besluitvorming te informeren. Testnauwkeurigheid is het vermogen van een test om onderscheid te maken tussen verschillende patiëntengroepen (bijv. gezond en ziek). De eerste stap bij het beoordelen van de waarde van een medische test vóór het uitvoeren van vergelijkende effectstudies (bv. gerandomiseerde gecontroleerde proeven) met betrekking tot verschillende tests is de beoordeling van de nauwkeurigheid van de test. Bovendien kan, indien effectstudies ontbreken, bewijsmateriaal over de nauwkeurigheid van tests worden gebruikt om de effecten op voor de patiënt belangrijke uitkomsten in te schatten door het bewijsmateriaal over de verschillende zorgpaden (bv. geen behandeling vs. behandeling) als gevolg van de verschillende classificaties op basis van tests te koppelen aan de maatstaven voor de nauwkeurigheid van de test (bv.
Het gebruik van tests, zelfs van dezelfde test in de gezondheidszorg, kan zeer uiteenlopend zijn wat betreft de klinische vraag (bv. diagnose van een gezondheidstoestand, voorspelling van therapiesucces) en het doel (bv. screening of bewaking, monitoring van behandeling of stadiëring). Bovendien worden medische tests gewoonlijk niet op zichzelf gebruikt, maar in verschillende constellaties met andere tests, waaronder triage vóór een andere test, add-on bij een andere test en parallel testen met een andere test.
Naast de vele toepassingsgebieden zijn studies naar de nauwkeurigheid van tests in de medische literatuur vaak onduidelijk gelabeld wat betreft het onderscheid tussen diagnose, prognose en voorspelling (zie bijvoorbeeld ), en wat betreft de onderliggende epidemiologische studieopzet (zie bijvoorbeeld ). Deze aspecten bemoeilijken de juiste classificatie van de studieopzet.
Systematische reviews over testnauwkeurigheid (bijv. over sensitiviteit en specificiteit) vatten testnauwkeurigheidsmetingen uit verschillende studies samen. Een consistente en duidelijke definitie van de studieopzetten is van cruciaal belang voor de kwaliteit bij verschillende taken van de systematische review. Dit omvat de selectie van studies, de keuze van het instrument voor de beoordeling van het risico op vertekening, de beslissing welke studies moeten worden samengevoegd in dezelfde meta-analyse en de beoordeling van de zekerheid van het bewijsmateriaal.
In het volgende stellen wij een algoritme voor de classificatie van testnauwkeurigheidsstudies in systematische reviews voor.
Voorlopige overwegingen
Dit algoritme is alleen van toepassing op studies waarin de resultaten van een indextest (de te evalueren test) worden vergeleken met de resultaten van een referentietest (de test waarvan de resultaten als correct/ de gouden standaard worden beschouwd). De tests in kwestie moeten binair kunnen worden geclassificeerd, hetzij door een cut-off te gebruiken voor een categorische of continue meting (bv. hoge versus lage bloeddruk, score van een prognostisch model), hetzij binair van aard zijn. Het algoritme kan worden gebruikt voor elke test die in de gezondheidszorg wordt gebruikt. Deze test kan een enkele test zijn (bv. beeldvorming) of een vooraf gedefinieerde combinatie (AND- of OR-koppeling) van tests (bv. beeldvorming en laboratorium) of factoren (bv. symptomen, patiëntkenmerken) die formeel gecombineerd worden in een diagnostisch of prognostisch model . Wanneer beoordelaars het algoritme toepassen, moeten zij zich ervan bewust zijn dat het niet moet gaan om een test in enge zin (bv. laboratoriumtests, diagnostische apparatuur). Het kan ook gaan om een observatie (bv. gezond), medische procedure (bv. algemene gezondheidscontrole) of klinische beoordeling (bv. inspectie van het lijk).
Het algoritme kan niet worden gebruikt voor studies over testkalibratie en studies over testbetrouwbaarheid (bv. test-hertest studies). Het algoritme kan verder niet worden gebruikt voor het classificeren van vergelijkende en impactstudies over tests. Dit zijn alle studies die de nauwkeurigheid van ten minste twee tests vergelijken aan de hand van dezelfde referentiestandaard of studies die het effect van verschillende tests op gezondheidsuitkomsten vergelijken (bv. een gerandomiseerde gecontroleerde trial waarin twee verschillende screeningstrategieën worden vergeleken wat het effect op de mortaliteit betreft). Het is echter belangrijk te bedenken dat in vergelijkende studies over tests, afzonderlijke armen van de studie waarin een test wordt uitgevoerd, kunnen worden beschouwd als studies naar de nauwkeurigheid van tests (bv. de arm van een gerandomiseerde gecontroleerde trial waarin een screeningtest wordt gebruikt) en dus (potentieel) relevant kunnen zijn voor de systematische reviews over de nauwkeurigheid van tests. Studies waarin een relatieve effectmaat wordt berekend maar geen testnauwkeurigheidsmaat kan worden berekend (bijv. prognostische factor studies) worden in dit artikel evenmin in beschouwing genomen omdat deze kunnen worden geclassificeerd als studies naar blootstellingen (bijv. case-control studies) . Voor deze studies over blootstellingen, evenals voor vergelijkende impactstudies, zijn elders classificaties beschreven
Het classificatiealgoritme
Het classificatiealgoritme wordt gepresenteerd in Fig. 1. De studieontwerpen die met het algoritme kunnen worden geclassificeerd, zijn weergegeven in tabel 2. In de volgende paragrafen wordt de toepassing van het algoritme toegelicht. Ter illustratie kan de lezer zich een systematische review voorstellen over de testnauwkeurigheid van korte cognitieve testen voor ouderen, waarvan wij voorbeelden geven in de beschrijving van het algoritme.
Is het een testnauwkeurigheidsstudie?
Het is niet altijd direct duidelijk of de bestudeerde studie inderdaad een onderzoek naar de nauwkeurigheid van tests is, omdat het mogelijk is dat studies geen nauwkeurigheidsmetingen rapporteren, maar alleen gegevens verstrekken die het mogelijk maken nauwkeurigheidsmetingen te berekenen (bv. gevoeligheid van de cognitieve test voor de diagnose van dementie). Met andere woorden, auteurs van systematische reviews moeten nagaan of het mogelijk is om een 2 × 2 kruistabel te berekenen (zie tabel 1). Daarom is het eerste criterium van het algoritme de vraag, of de studie een testnauwkeurigheidsstudie is.
Diagnostische, prognostische of predictieve testnauwkeurigheid (cross-sectioneel of longitudinaal)?
Tests in de gezondheidszorg kunnen worden gebruikt voor diagnose, prognose en/of predictie. Diagnose verwijst naar de “waarschijnlijkheid dat een specifieke uitkomst of ziekte aanwezig (of afwezig) is bij een individu, op dit tijdstip”. Dit betekent dat bij studies naar de diagnostische nauwkeurigheid de testinformatie wordt gebruikt om een classificatie te maken van een huidige gezondheidstoestand (bv. cognitief gestoord vs. gezond). Prognose daarentegen verwijst naar het risico van (een) toekomstige gezondheidsuitkomst bij mensen met een bepaalde ziekte of gezondheidstoestand (bv. hoog risico vs. laag risico om binnen een jaar te overlijden). Voor tests betekent dit dat prognostische en voorspellende nauwkeurigheidsstudies het risico classificeren voor het ontwikkelen van een uitkomst in de toekomst, die niet aanwezig is op het moment dat de test wordt toegepast. Prognose kan verder worden onderverdeeld in prognostisch en voorspellend onderzoek. Prognose houdt rekening met het natuurlijke beloop van ziekten en geeft dus antwoord op de vraag wie behandeld moet worden (er is bijvoorbeeld alleen een behandeling nodig als er een risico bestaat op het ontwikkelen van dementie). Voorspelling beoogt de uitkomst bij behandelde patiënten te voorspellen en beantwoordt dus de vraag wie en hoe behandeld moet worden (bv. cognitietraining bij mensen met milde cognitieve stoornissen is alleen nodig als er een kans op verbetering is) . In het volgende zullen we prognose- en voorspellingstests samen beschouwen omdat beide een longitudinale kijk hebben van heden in de toekomst en daarom hun testnauwkeurigheid met dezelfde studieopzetten kan worden beoordeeld. Niettemin moeten auteurs van systematische reviews zorgvuldig overwegen of de beoordeelde studie het natuurlijke beloop van ziekten (prognose) of behandelde patiënten (voorspelling) in beschouwing neemt.
Het tweede criterium van het classificatiealgoritme is de vraag of het doel van de beoordeelde studie is de diagnostische nauwkeurigheid of de prognostische/voorspellende nauwkeurigheid van een test te beoordelen. Aangezien het belangrijkste verschil tussen deze twee de tijdscomponent is (huidige versus toekomstige status), wordt bij het tweede indelingscriterium het tijdsinterval tussen de index- en de referentietest in aanmerking genomen. Een diagnose is de classificatie van een huidige status. Alle informatie over een individuele deelnemer heeft betrekking op hetzelfde tijdstip (bv. een cognitieve test geeft aan dat de patiënt momenteel dementie heeft). Dit impliceert dat alle studies naar de diagnostische nauwkeurigheid transversaal van aard zijn. Omdat een diagnose informatie geeft over een huidige status, moeten de referentietest en de indextest op hetzelfde tijdstip worden uitgevoerd. Bij de toepassing van dit criterium is het van belang te verwijzen naar het tijdstip waarop de informatie over de index- en referentietest voor een individuele deelnemer aan het onderzoek wordt verzameld en niet naar het tijdstip waarop de gegevens voor het onderzoek worden verzameld (bv. onderzoek van dossiers om de diagnose dementie te verifiëren) om verwarring te voorkomen. Een patiënt kan bijvoorbeeld in de eerstelijnszorg een indextest (bv. korte cognitieve test) ondergaan en de referentietest (bv. uitgebreide cognitieve beoordeling) tijdens een ziekenhuisopname enkele maanden later. De informatie over beide testresultaten wordt verzameld aan de hand van routinematig verzamelde gegevens over de gezondheidszorg op hetzelfde tijdstip (bv. een patiëntenregister van geriatrische patiënten). Hoewel de gegevens voor de studie op hetzelfde tijdstip uit het register worden verzameld, is de studie niet transversaal omdat index- en referentietest niet op hetzelfde tijdstip op het niveau van de individuele deelnemer worden uitgevoerd. In de praktijk zijn de tijdstippen waarop de tests worden uitgevoerd meestal niet precies hetzelfde. Zo kan hetzelfde tijdstip betekenen dat de test bijna op hetzelfde tijdstip wordt uitgevoerd (bv. korte cognitieve test en uitgebreide cognitieve beoordeling tijdens hetzelfde bezoek) of dat de ene test vlakbij de andere wordt uitgevoerd (bv. korte cognitieve test en uitgebreide cognitieve beoordeling tijdens dezelfde ziekenhuisopname). Men moet beoordelen of het tijdsinterval in het te beoordelen onderzoek adequaat was, rekening houdend met de waarschijnlijkheid dat de status van de patiënt (bv. geen cognitieve stoornissen) niet veranderd is tussen de index- en de referentietest . De aanvaardbare vertraging hangt dus af van de aandoening en is groter bij een langzaam voortschrijdende aandoening dan bij een snel voortschrijdende aandoening. Voor de classificatie van de studieopzet betekent dit dat, als kan worden gemotiveerd dat het onwaarschijnlijk is dat de toestand is veranderd (bv. diagnose van Alzheimer dementie), studies met een vertraging tussen index en referentietest ook als transversaal kunnen worden geclassificeerd. Aangezien niet kan worden uitgesloten dat de status van de patiënt tussen de twee tests is veranderd, bestaat er een risico van vertekening door verkeerde classificatie in studies naar de diagnostische nauwkeurigheid, omdat de verhouding tussen de patiëntengroepen (bv. het deel dat als cognitief gestoord of niet-cognitief gestoord wordt geclassificeerd) als gevolg van de testclassificatie in de tussentijd kan zijn veranderd. Wij stellen voor dat twee tijdsintervallen tussen de index- en de referentietest vooraf worden gespecificeerd in systematische reviews over de nauwkeurigheid van diagnostische tests. Eén voor de beslissing over inclusie in de systematische review en een ander criterium (gewoonlijk een kleiner tijdsinterval) voor de beoordeling van een laag/matig risico van vertraagde verificatiebias . Voor de specificatie van de drempels is gewoonlijk de deskundigheid van een methodoloog en een clinicus vereist.
Een prognose/voorspelling is een classificatie van een toekomstige status. In studies over prognose/voorspelling wordt de referentietest gebruikt om deelnemers te classificeren volgens hun risico op het ontwikkelen van een bepaalde uitkomst (bv. progressie van milde cognitieve stoornis naar dementie), of therapierespons (bv. een respons op cognitieve training). Hier wordt de referentietest gebruikt om de uitkomststatus te beoordelen. De informatie van index- en referentietestresultaten voor een individuele deelnemer heeft betrekking op verschillende tijdstippen. Dit impliceert dat studies naar prognose/voorspelling altijd longitudinaal zijn omdat er herhaalde waarnemingen zijn, namelijk het resultaat van de indextest en later de resultaten van de referentietest voor elke deelnemer . In tegenstelling tot studies naar diagnostische nauwkeurigheid moet het tijdsinterval tussen de indextest en de referentietest niet te kort zijn, maar “voldoende” lang. Het tijdsinterval moet zo worden gekozen dat, indien het resultaat van belang zich niet heeft voorgedaan (bv. negatieve test voor dementie), het onwaarschijnlijk is dat het zich spoedig daarna zal voordoen (bv. de milde cognitieve stoornis zal zich in de komende maanden waarschijnlijk niet tot dementie ontwikkelen). Naast een levenslange periode is informatie over bepaalde vooraf bepaalde tijdsintervallen vaak klinisch relevant (bv. het ontwikkelen van dementie in de komende 5 jaar). In de onderzoekspraktijk kan de keuze van het tijdsinterval echter eerder worden ingegeven door de beschikbaarheid van gegevens (bv. de duur van de follow-up) dan door het klinisch belang. Naast de beoordeling van de klinische relevantie is het tijdsinterval in de beschouwde studie van doorslaggevend belang voor de beoordeling van het biasrisico. Een onvoldoende lange follow-up kan in studies met ongeblindeerde indextestresultaten leiden tot voortijdige vertekening, omdat bij deelnemers met een positieve indextest (bv. indicatie voor cognitieve stoornissen) het optreden van een gebeurtenis wordt vermoed (bv. het ontwikkelen van dementie). Daarom hebben deelnemers met een positieve indextest vaak een grotere kans om nauwlettender gevolgd te worden, en bijgevolg ook een grotere kans om de referentietest eerder te ondergaan (bv. door een intensievere monitoring van de cognitieve functie) dan deelnemers met een negatieve indextestuitslag. Bovendien kan de waarneming van minder voorvallen in een groep bedrieglijk zijn als het testresultaat alleen geassocieerd is met een vertraging van de voorvallen, maar in feite het voorvalpercentage over een periode van een leven niet verlaagt. Daarom stellen wij voor dat auteurs van systematische reviews, net als voor de diagnose, twee tijdsintervallen vooraf specificeren. Eén voor de selectie van studies die moeten worden gekozen afhankelijk van de tijdshorizon die van belang is (bv. vroege of late progressie) en één voor de beoordeling van het biasrisico van de studies. Het is belangrijk op te merken dat er, voor zover ons bekend, voor studies over prognostische nauwkeurigheid geen instrument bestaat om de methodologische kwaliteit te beoordelen.
Auteurs van systematische reviews zullen regelmatig geïnteresseerd zijn in hetzij diagnostische nauwkeurigheid (bv. diagnose van milde cognitieve stoornissen) of prognostische/predictieve nauwkeurigheid (bv. voorspellen van dementie bij patiënten met milde cognitieve stoornissen). Een voorspecificatie van de tijdsintervallen voor de selectie van studies is daarom zeer belangrijk om diagnostische van prognostische/voorspellende studies te onderscheiden, met name omdat dezelfde test vaak zowel voor de diagnose als voor de prognose/voorspelling kan worden gebruikt (zie bijvoorbeeld ). Dit betekent dat de klinische vraag niet altijd uit de test zelf kan worden afgeleid, maar dat alleen het tijdsinterval tussen de indextest en de referentietest aangeeft of het onderzoek op concurrentiële of predictieve nauwkeurigheid is gericht. Bovendien kan het onderscheid moeilijk zijn omdat de overgang van vertraagde verificatie naar prognose/voorspelling vloeiend kan zijn.
Als auteurs van systematische reviews ervan overtuigd zijn dat de test uitsluitend kan worden gebruikt voor diagnose of prognose/voorspelling, kunnen zij alleen het respectieve (diagnose, prognose/voorspelling) pad van het algoritme gebruiken.
Cohorttype of case-controlselectie van deelnemers?
Het tweede criterium onderscheidt cohortonderzoeken van case-controlonderzoeken en kan voor diagnostische nauwkeurigheidsonderzoeken op soortgelijke wijze worden toegepast als voor prognostische/predictieve nauwkeurigheidsonderzoeken.
In het algemeen onderscheiden cohortonderzoeken en case-controlonderzoeken zich door de methode van selectie van de deelnemers aan het onderzoek . In studies van het cohorttype naar de nauwkeurigheid van tests worden de deelnemers gerekruteerd op basis van verdenking. Met verdenking wordt bedoeld dat er een indicatie is om de test uit te voeren, met inbegrip van tekenen en symptomen, de aanwezigheid van risicofactoren (bv. patiëntkenmerken, omgeving) of resultaten van eerdere medische tests.
Theoretisch zouden bij bevolkingsonderzoeken mensen kunnen worden geselecteerd ongeacht of er een indicatie is om dat te doen of niet. In de praktijk is dit echter niet gebruikelijk; ook in de meeste screeningprogramma’s op bevolkingsniveau is er op zijn minst een vage indicatie om een test uit te voeren (bv. bepaalde leeftijdsgroep, geslacht). In cohortopzetten krijgen alle verdachte deelnemers de indextest en de referentietest om hun huidige status (diagnose) te bepalen of om hun uitkomststatus (prognose/voorspelling) te beoordelen. In diagnostische cohortonderzoeken worden de indextest en de referentietest op hetzelfde moment uitgevoerd. Deze cross-sectionele relatie impliceert dat de volgorde van de referentie- en de indextest kan verschillen, zolang de tests maar op (bijna) hetzelfde tijdstip of zonder al te veel vertraging worden uitgevoerd (zie hierboven). De referentie- en de indextest kunnen dus gelijktijdig worden uitgevoerd, de referentietest kan na de indextest worden uitgevoerd of de indextest kan na de referentietest worden uitgevoerd. Voor studies van het cohorttype naar prognostische/predictieve nauwkeurigheid impliceert de longitudinale relatie dat de indextest altijd vóór de referentietest wordt uitgevoerd.
In case-control-designs is de selectie van deelnemers gebaseerd op de gezondheidsstatus/uitkomst. De resultaten van de indextest van deelnemers met een positief referentietestresultaat/gebeurtenis (gevallen) worden vergeleken met de resultaten van de indextest van deelnemers met een negatief referentietestresultaat/geen gebeurtenis (controles). Net als bij case-controlstudies over blootstellingen of interventies kunnen de gevallen en controles uit dezelfde bron komen (bv. een register) of uit verschillende bronnen (bv. gevallen uit een Alzheimer-register en controles uit een administratieve databank). In case-controlstudies naar de diagnostische nauwkeurigheid wordt de referentietest op het niveau van de individuele deelnemer altijd uitgevoerd vóór de indextest, maar de kijk op/interpretatie van de resultaten van de indextest (bv. retrospectieve beoordeling van dossiers) is altijd retrospectief. Het is belangrijk op te merken dat in case-control ontwerpen geen voorspellende waarden kunnen worden berekend omdat de prevalentie/incidentie (kolomsom in de 2 × 2 tabel van deelnemers die met de referentietest positief en negatief zijn geclassificeerd) een kunstmatig resultaat van het ontwerp is (bv. 50% bij 1:1 case-control matching).
Wij stellen voor diagnostische nauwkeurigheidsstudies met patiëntenselectie op basis van verdenking te labelen als “cohort selected cross-sectional studies” en studies met case-based sampling als “case-control selected cross-sectional studies”. Deze etikettering zorgt voor een duidelijk onderscheid met longitudinale studieopzetten en geeft de methode van selectie van de deelnemers aan. Hoewel wij ons ervan bewust zijn dat het combineren van de labels cohort en cross-sectioneel vrijwel tegenstrijdig lijkt, zijn wij van mening dat deze etikettering de voorkeur verdient boven een volledig nieuwe etikettering, omdat de meeste beoordelaars bekend zijn met deze standaard selectiemethoden.
Figuur a en c in tabel 2 illustreren de opzet van respectievelijk een “cohort selectie cross-sectionele studie” en een “case-control selectie cross-sectionele studie”.
De classificaties (bv. positief versus negatief) die het resultaat zijn van een indextest ter beoordeling van prognose/voorspelling kunnen worden beschouwd als verschillende blootstellingen (bv. hoog risico op dementie versus laag risico op dementie) en de observatieperiode is longitudinaal. Het enige verschil met het klassieke cohort- en case-controlonderzoek in de epidemiologie is de effectmaat (testnauwkeurigheidsmaat in plaats van risicoverhoudingen). Daarom stellen wij voor prognostische/predictieve nauwkeurigheidsstudies op dezelfde manier te labelen, namelijk “cohortstudies” en “case-controlstudies”.
Figuur b en d in tabel 2 illustreren de opzet van respectievelijk een “cohortstudie” en een “case-controlstudie”.
Ofwel testnauwkeurigheidsstudies kunnen gebaseerd zijn op gegevens die specifiek voor de studie zijn verzameld (d.w.z. een onderzoeksdatabank) of op reeds bestaande gegevensbronnen (d.w.z. routinematig verzamelde gegevens). Vaak wordt de classificatie retrospectief/prospectief gebruikt om aan te geven of de gegevens specifiek voor het onderzoek zijn verzameld of dat een reeds bestaande gegevensbron is gebruikt. Om twee redenen wordt aanbevolen deze indeling te vermijden. Ten eerste hebben studies vaak zowel prospectieve (bv. het analyseplan) als retrospectieve aspecten (bv. de gegevensverzameling). Ten tweede zou dit, vooral bij studies naar de diagnostische nauwkeurigheid, leiden tot omslachtige classificaties (bv. retrospectieve transversale studie). In plaats daarvan moet in de systematische review duidelijk worden beschreven welke gegevensbron voor de studie is gebruikt.
Illustratieve voorbeelden
Tabel 3 toont een illustratief voorbeeld voor elk type testnauwkeurigheidsstudie. In voorbeeldstudie 1 kregen alle ontvangers van niertransplantaties van ten minste 50 jaar een fecale immunochemische test (indextest) voor screening op colorectale kanker. Na de fecaal immunochemische test werden de patiënten doorverwezen voor een colonoscopie (referentietest). In deze studie werd de steekproef genomen op basis van verdenking (ontvangers van niertransplantaties). De indextest en de referentietest werden op hetzelfde moment uitgevoerd (de ziekte is waarschijnlijk niet gevorderd). Bijgevolg is deze studie een cohort sampling cross-sectionele studie naar diagnostische nauwkeurigheid (zie tabel 2 figuur a).
In het tweede voorbeeld werden patiënten met een klinische diagnose (referentietest) van Alzheimer (gevallen) die een geheugenkliniek bezochten, gematcht met deelnemers zonder Alzheimer, die werden gerekruteerd uit familieleden die patiënten naar de geheugenkliniek vergezelden (geen ziekte, controles). Zowel patiënten als familieleden kregen een cognitieve test (index test) tijdens het bezoek aan de geheugenkliniek. De steekproef van deelnemers was gebaseerd op ziekte in de ene groep en afwezigheid van ziekte in de andere. Hoewel de referentietest op een ander tijdstip werd uitgevoerd dan de indextest, kan hij als hetzelfde tijdstip worden beschouwd omdat de ziekte nog niet kon zijn verdwenen, d.w.z. nog steeds een actuele status heeft. Bijgevolg is deze studie een case-control sampling cross-sectionele diagnostische nauwkeurigheidsstudie (zie tabel 2 figuur c).
Het derde voorbeeld onderzoekt alle patiënten tussen 50 en 90 jaar (verdenking) in een zorgorganisatie van een betaler. In de studie werden patiëntkenmerken en andere factoren formeel gecombineerd in een prognostisch model. Het prognostisch model berekent een score die wordt gedichotomiseerd aan de hand van verschillende cut-offs (indextest). Voor elke deelnemer werd het risico op het ontwikkelen van fracturen binnen 5 jaar (toekomstige gebeurtenis) voorspeld. De steekproeftrekking was gebaseerd op verdenking en er werd een toekomstige uitkomst voorspeld. Hoewel het niet volledig duidelijk is uit de publicatie, kan worden aangenomen dat de meeste patiënten niet werden behandeld voor osteoporose. Bijgevolg gaat het om een cohortstudie ter beoordeling van de prognostische nauwkeurigheid (zie tabel 2 figuur b).
De laatste voorbeeldstudie includeerde mannen van ten minste 40 jaar (verdenking), bij wie de resultaten van een bloedafname afkomstig waren van een groter cohortonderzoek op bevolkingsniveau. Patiënten met prostaatkanker (uitkomstgebeurtenis) werden bemonsterd en gematcht met patiënten zonder prostaatkanker (geen uitkomstgebeurtenis, controles). De prostaat-specifiek antigeen niveaus (index test) van de voorafgaande bloedafname werden gecategoriseerd en vergeleken. De deelnemers waren onbehandeld, de bemonstering was gebaseerd op het resultaat en er wordt een toekomstig resultaat voorspeld. Bijgevolg is de studie een (geneste) case-controlstudie ter beoordeling van de prognostische nauwkeurigheid (zie tabel 2 figuur d).
Limitaties
Onze algoritme dekt alleen de basiskenmerken van de opzet van studies naar de testnauwkeurigheid. Er bestaan nog andere criteria die van belang zijn voor de beoordeling van het risico op vertekening en voor de beoordeling van het vertrouwen in het bewijsmateriaal. Met name de methode van steekproeftrekking is in dit verband van belang. Studies van het cohorttype met een opeenvolgende of aselecte steekproef (bv. één arm van een gerandomiseerd gecontroleerd onderzoek) worden geacht de minste vertekende informatie over de testnauwkeurigheid te geven. Bovendien moet de onderzoekspopulatie representatief zijn voor de doelpopulatie, zodat extern geldige nauwkeurigheidsmetingen kunnen worden verkregen.