En algoritme til klassificering af undersøgelsesdesigns til vurdering af diagnostisk, prognostisk og prædiktiv testnøjagtighed i systematiske oversigter

sep 8, 2021
admin

Resultater af medicinske tests er den vigtigste kilde til at informere klinisk beslutningstagning. Testens nøjagtighed er en tests evne til at skelne mellem forskellige patientgrupper (f.eks. raske og syge). Det første skridt i vurderingen af værdien af en medicinsk test, inden der foretages sammenlignende effektundersøgelser (f.eks. randomiserede kontrollerede forsøg) af forskellige tests, er vurderingen af testens nøjagtighed. Hvis der ikke findes konsekvensundersøgelser, kan beviser for testens nøjagtighed desuden anvendes til at vurdere virkningerne på vigtige resultater for patienten ved at sammenkæde beviserne for de forskellige behandlingsforløb (f.eks. ingen behandling vs. behandling), der følger af de forskellige testbaserede klassifikationer, med testens nøjagtighedsmål (f.eks.f.eks. falsk negative testresultater) .

Anvendelsen af test, selv den samme test i sundhedsvæsenet, kan være mangfoldig med hensyn til det kliniske spørgsmål (f.eks. diagnose af en sundhedstilstand, forudsigelse af behandlingssucces) og formål (f.eks. screening eller overvågning, behandlingsovervågning eller stadieinddeling). Desuden anvendes medicinske test normalt ikke alene, men i forskellige konstellationer med andre test, herunder triage før en anden test, add-on til en anden test og parallel testning med en anden test.

Ud over de mange anvendelsesområder er undersøgelser af testnøjagtighed ofte uklart mærket i den medicinske litteratur med hensyn til differentieringen mellem diagnose, prognose og forudsigelse (se f.eks. ) og med hensyn til det underliggende epidemiologiske undersøgelsesdesign (se f.eks. ). Disse aspekter vanskeliggør en korrekt klassificering af undersøgelsesdesignet.

Systematiske oversigter om testnøjagtighed (f.eks. om sensitivitet og specificitet) opsummerer testnøjagtighedsmålinger fra flere undersøgelser. En konsekvent og klar definition af undersøgelsesdesigns er afgørende for kvaliteten ved flere opgaver i den systematiske gennemgang. Dette omfatter udvælgelse af undersøgelser, valg af værktøj til vurdering af risiko for bias, beslutning om, hvilke undersøgelser der skal sammenlægges i den samme metaanalyse, og vurdering af evidensmassens sikkerhed .

I det følgende foreslår vi en algoritme til klassificering af undersøgelser af testnøjagtighed i systematiske oversigter.

Foreløbige overvejelser

Denne algoritme gælder kun for undersøgelser, der sammenligner resultaterne af en indekstest (den test, der skal evalueres) med resultaterne af en referencetest (den test, hvis resultater betragtes som korrekte/den gyldne standard). De test, der er af interesse, skal muliggøre en binær klassificering, enten ved hjælp af en grænseværdi for et kategorisk eller kontinuerligt mål (f.eks. højt vs. lavt blodtryk, score i en prognostisk model) eller være binære i deres natur. Algoritmen kan anvendes til enhver test, der anvendes i sundhedsvæsenet. Denne test kan være en enkelt test (f.eks. billeddannelse) eller en foruddefineret kombination (AND- eller OR-forbindelse) af test (f.eks. billeddannelse og laboratorieundersøgelser) eller faktorer (f.eks. symptomer, patientkarakteristika), som formelt kombineres i en diagnostisk eller prognostisk model . Når bedømmere anvender algoritmen, skal de være opmærksomme på, at testen ikke må være en test i snæver forstand (f.eks. laboratorieprøver, diagnostisk udstyr). Det kan også være en observation (f.eks. sund), en medicinsk procedure (f.eks. generel helbredskontrol) eller en klinisk vurdering (f.eks. inspektion af lig).

Algoritmen kan ikke anvendes til undersøgelser af testkalibrering og undersøgelser af testpålidelighed (f.eks. test-retest-undersøgelser). Algoritmen kan endvidere ikke anvendes til klassificering af sammenlignende undersøgelser og konsekvensundersøgelser af test. Det drejer sig om alle undersøgelser, der sammenligner nøjagtigheden af mindst to test ved hjælp af den samme referencestandard, eller undersøgelser, der sammenligner forskellige testers indvirkning på sundhedsresultater (f.eks. et randomiseret kontrolleret forsøg, der sammenligner to forskellige screeningsstrategier med hensyn til deres indvirkning på dødeligheden) . Det er imidlertid vigtigt at være opmærksom på, at i sammenlignende undersøgelser af test kan enkelte dele af undersøgelsen, hvor en test udføres, betragtes som undersøgelser af testnøjagtighed (f.eks. den del af et randomiseret kontrolleret forsøg, hvor en screeningstest anvendes) og dermed (potentielt) være relevante for de systematiske undersøgelser af testnøjagtighed. Undersøgelser, hvor der beregnes et relativt effektmål, men hvor der ikke kan beregnes et mål for testnøjagtighed (f.eks. undersøgelser af prognostiske faktorer), tages heller ikke i betragtning i dette dokument, da de kan klassificeres som undersøgelser af eksponeringer (f.eks. case-kontrol-undersøgelser). For disse eksponeringsundersøgelser samt sammenlignende effektundersøgelser er klassifikationer beskrevet andetsteds.

Klassifikationsalgoritmen

Klassifikationsalgoritmen er vist i fig. 1. De undersøgelsesdesigns, der kan klassificeres med algoritmen, er vist i tabel 2. I de følgende afsnit forklares anvendelsen af algoritmen. Til illustration kan læseren forestille sig en systematisk gennemgang af testnøjagtigheden af korte kognitive test for ældre mennesker, som vi giver eksempler på i hele beskrivelsen af algoritmen.

Figur 1
Figur1

Algoritme til klassificering af undersøgelsesdesigns for testnøjagtighed

Er det en undersøgelse af testnøjagtighed?

Det er ikke altid direkte indlysende, om den pågældende undersøgelse rent faktisk er en undersøgelse af testnøjagtighed, fordi undersøgelserne måske ikke rapporterer nøjagtighedsmålinger, men kun leverer data, der gør det muligt at beregne nøjagtighedsmålinger (f.eks. sensitiviteten af den kognitive test til diagnosticering af demens). Med andre ord skal forfatterne af systematiske oversigter kontrollere, om det er muligt at beregne en 2 × 2 krydstabulering (se tabel 1). Derfor er det første kriterium i algoritmen spørgsmålet, om undersøgelsen er en undersøgelse af testnøjagtighed.

Tabel 1 2 × 2 krydstabeller til beregning af testnøjagtighedsmålinger

Diagnostisk, prognostisk eller prædiktiv testnøjagtighed (tværsnit eller langsgående)?

Tests i sundhedsvæsenet kan anvendes til diagnose, prognose og/eller forudsigelse. Ved diagnose forstås “sandsynligheden for, at et bestemt resultat eller en bestemt sygdom er til stede (eller ikke er til stede) hos et individ på dette tidspunkt” . Det betyder, at i undersøgelser af diagnostisk nøjagtighed anvendes testoplysningerne til at foretage en klassificering af en aktuel sundhedstilstand (f.eks. kognitivt svækket vs. rask). I modsætning hertil henviser “prognose til risikoen for (eventuelle) fremtidige helbredsresultater hos personer med en given sygdom eller helbredstilstand” (f.eks. høj risiko vs. lav risiko for at dø inden for 1 år) . For test betyder dette, at undersøgelser af prognostisk og prædiktiv nøjagtighed klassificerer risikoen for at udvikle et resultat i fremtiden, som ikke er til stede på det tidspunkt, hvor testen anvendes. Prognose kan yderligere underopdeles i prognostisk og prædiktiv forskning. Prognose tager hensyn til sygdommes naturlige forløb og besvarer således spørgsmålet om, hvem der har behov for behandling (der er f.eks. kun behov for behandling, hvis der er risiko for at udvikle demens). Prædiktion har til formål at forudsige udfaldet hos behandlede patienter og besvarer således spørgsmålet om, hvem og hvordan der bør behandles (f.eks. er kognitionstræning hos personer med let kognitiv svækkelse kun nødvendig, hvis der er en chance for forbedring) . I det følgende vil vi betragte prognose- og forudsigelsestests sammen, fordi de begge har et langsigtet perspektiv fra nutid til fremtid, og fordi testens nøjagtighed derfor kan vurderes med de samme undersøgelsesdesigns. Ikke desto mindre bør forfattere af systematiske oversigter nøje overveje, om den undersøgelse, der vurderes, tager hensyn til sygdommes naturlige forløb (prognose) eller tager hensyn til behandlede patienter (forudsigelse).

Det andet kriterium i klassificeringsalgoritmen er spørgsmålet om, hvorvidt formålet med den pågældende undersøgelse er at vurdere den diagnostiske nøjagtighed eller den prognostiske/forudsigende nøjagtighed af en test. Da den væsentligste forskel mellem disse to er tidskomponenten (nuværende vs. fremtidig status), tager det andet klassifikationskriterium hensyn til tidsintervallet mellem indeks- og referencetest. En diagnose er en klassificering af en aktuel status. Alle oplysninger om en individuel deltager refererer til det samme tidspunkt (f.eks. angiver kognitiv test, at patienten i øjeblikket har demens). Dette indebærer, at alle undersøgelser af diagnostisk nøjagtighed er tværsnitsundersøgelser af natur . Da en diagnose giver oplysninger om en aktuel status, bør referencetesten og indekstesten udføres på samme tidspunkt. Når dette kriterium anvendes, er det vigtigt at henvise til tidspunktet for indsamling af oplysninger om indeks- og referencetest for den enkelte deltager i undersøgelsen og ikke til tidspunktet for indsamling af data til undersøgelsen (f.eks. journalgennemgang for at verificere demensdiagnosen) for at undgå forvirring. En patient kan f.eks. få foretaget en indekstest (f.eks. en kort kognitiv test) i primærsektoren og referencetesten (f.eks. en omfattende kognitiv vurdering) ved et hospitalsophold flere måneder senere. Oplysningerne om begge testresultater indsamles fra rutinemæssigt indsamlede sundhedsdata på samme tidspunkt (f.eks. et patientregister over geriatriske patienter). Selv om dataene til undersøgelsen indsamles på samme tidspunkt fra registret, er undersøgelsen ikke tværsnitsundersøgelse, fordi indeks- og referencetesten ikke udføres på samme tidspunkt på det individuelle deltagerniveau. I praksis er de tidspunkter, hvor testene udføres, normalt ikke nøjagtigt de samme. Det samme tidspunkt kan således betyde næsten samme tidspunkt (f.eks. kort kognitiv test og omfattende kognitiv vurdering ved samme besøg), eller at den ene test udføres i nærheden af den anden (f.eks. kort kognitiv test og omfattende kognitiv vurdering ved samme hospitalsophold). Man bør vurdere, om tidsintervallet i den undersøgte undersøgelse var passende, idet man tager hensyn til sandsynligheden for, at patientens status (f.eks. ingen kognitiv svækkelse) ikke har ændret sig mellem indeks- og referencetesten . Følgelig afhænger den acceptable forsinkelse af tilstanden og er større ved langsomt progredierende tilstande end ved hurtigt progredierende tilstande. For klassificeringen af undersøgelsesdesignet betyder dette, at hvis det kan begrundes, at det er usandsynligt, at status har ændret sig (f.eks. diagnose af Alzheimers demens), kan undersøgelser med en forsinkelse mellem indeks- og referencetest også klassificeres som tværsnitsundersøgelser. Da det ikke kan udelukkes, at patientens status har ændret sig mellem de to test, er der risiko for fejlklassificeringsbias i undersøgelser af diagnostisk nøjagtighed, fordi forholdet mellem patientgrupper (f.eks. andelen klassificeret som kognitivt svækket eller ikke kognitivt svækket) som følge af testklassificeringen kan have ændret sig i mellemtiden . Vi foreslår, at der på forhånd specificeres to tidsintervaller mellem indeks- og referencetest i systematiske undersøgelser af diagnostisk testnøjagtighed. Et for beslutningen om optagelse i den systematiske gennemgang og et andet kriterium (normalt et mindre tidsinterval) til vurdering af lav/moderat risiko for forsinket verifikationsbias . Specifikationen af tærskelværdierne vil normalt kræve ekspertise fra en metodolog og en kliniker.

En prognose/forudsigelse er en klassificering af en fremtidig tilstand. I undersøgelser om prognose/forudsigelse anvendes indekstestet til at klassificere deltagerne efter deres risiko for at udvikle et bestemt resultat (f.eks. progression af mild kognitiv svækkelse til demens) eller terapireaktion (f.eks. en reaktion på kognitiv træning). Her anvendes referencetesten til at vurdere udfaldsstatus. Oplysningerne om indeks- og referencetestresultater for en enkelt deltager henviser til forskellige tidspunkter. Dette indebærer, at undersøgelser af prognose/forudsigelse altid er longitudinelle, fordi der er tale om gentagne observationer, nemlig resultatet af indekstesten og senere resultaterne af referencetesten for hver enkelt deltager . I modsætning til undersøgelser af diagnostisk nøjagtighed bør tidsintervallet mellem indekstest og referencetest ikke være for kort, men “tilstrækkeligt” langt. Tidsintervallet bør vælges på en sådan måde, at hvis det interessante resultat ikke er indtruffet (f.eks. negativ test for demens), er det usandsynligt, at det vil indtræffe kort tid derefter (f.eks. vil den milde kognitive svækkelse sandsynligvis ikke udvikle sig til demens i de næste måneder). Ud over en livstidsperiode er oplysninger om visse foruddefinerede tidsintervaller ofte klinisk relevante (f.eks. udvikling af demens inden for de næste 5 år). I forskningspraksis kan valget af tidsinterval imidlertid snarere være drevet af tilgængeligheden af data (f.eks. opfølgningslængde) end af klinisk betydning. Ud over vurderingen af den kliniske relevans er tidsintervallet i den pågældende undersøgelse afgørende for vurderingen af risikoen for bias. En utilstrækkelig længde af opfølgningen kan forårsage lead-time bias i undersøgelser med ublindede indekstestresultater, fordi der hos deltagere med en positiv indekstest (f.eks. indikation for kognitiv svækkelse) er mistanke om, at der er sket en hændelse (f.eks. udvikling af demens). Derfor har deltagere med en positiv indekstest ofte større chance for at blive overvåget tættere og dermed også større chance for at modtage referencetesten tidligere (f.eks. gennem en mere intensiv overvågning af den kognitive funktion) end deltagere med et negativt indekstestresultat. Desuden kan observationen af færre hændelser i en gruppe være falsk, hvis testresultatet kun er forbundet med en forsinkelse af hændelser, men faktisk ikke sænker hændelsesraten set over en livstidsperiode. Derfor foreslår vi, ligesom for diagnose, at forfattere af systematiske oversigter på forhånd specificerer to tidsintervaller. Et til udvælgelse af undersøgelser, som bør vælges afhængigt af den tidshorisont, der er af interesse (f.eks. tidlig eller sen progression), og et til vurdering af undersøgelsernes risiko for bias . Det er vigtigt at bemærke, at der så vidt vi ved ikke findes noget værktøj til vurdering af den metodologiske kvalitet af undersøgelser om prognostisk nøjagtighed.

Forfattere af systematiske oversigter vil regelmæssigt være interesseret i enten diagnostisk nøjagtighed (f.eks. diagnose af mild kognitiv svækkelse) eller prognostisk/forudsigende nøjagtighed (f.eks. forudsigelse af demens hos patienter med mild kognitiv svækkelse). En forudgående specifikation af tidsintervallerne for udvælgelse af undersøgelser er derfor meget vigtig for at skelne diagnostiske fra prognostiske/forudsigelige undersøgelser, især fordi den samme test ofte kan anvendes både til diagnose og prognose/forudsigelse (se f.eks. ). Det betyder, at det kliniske spørgsmål ikke altid kan udledes af selve testen, men at det kun er tidsintervallet mellem indekstest og referencetest, der angiver, om undersøgelsen er af samtidig eller prædiktiv karakter. Desuden kan det være vanskeligt at skelne, fordi overgangen fra forsinket verifikation til prognose/forudsigelse kan være flydende.

Hvis forfattere af systematiske oversigter er overbevist om, at testen udelukkende kan anvendes til enten diagnose eller prognose/forudsigelse, kan de kun anvende algoritmens respektive (diagnose, prognose/forudsigelse) vej.

Kohortetype eller case-control udvælgelse af deltagere?

Det andet kriterium adskiller undersøgelser af kohortetypen fra undersøgelser af case-control-typen og kan anvendes for undersøgelser af diagnostisk nøjagtighed på samme måde som for undersøgelser af prognostisk/prædiktiv nøjagtighed.

Generelt adskiller undersøgelser af kohortetypen og undersøgelser af case-control-typen sig fra hinanden ved metoden til udvælgelse af deltagerne til undersøgelsen . I undersøgelser af testnøjagtighed af kohortetypen rekrutteres deltagerne på baggrund af mistanke. Med mistanke menes, at der er en indikation for at udføre testen, herunder tegn og symptomer, tilstedeværelsen af risikofaktorer (f.eks. patientkarakteristika, miljø) eller resultater af tidligere medicinske tests.

Theoretisk set kan der ved populationsscreening udvælges personer, uanset om der er en indikation for det eller ej. I praksis er dette dog ikke det sædvanlige tilfælde, men også i de fleste befolkningsbaserede screeningsprogrammer er der i det mindste en vag indikation for at udføre en test (f.eks. en bestemt aldersgruppe, køn). I kohortedesigns modtager alle mistænkte deltagere indekstesten og referencetesten for at bestemme deres aktuelle status (diagnose) eller for at vurdere deres udfaldsstatus (prognose/forudsigelse). I undersøgelser af diagnostisk kohortetype udføres indekstest og referencetest på samme tid. Dette tværsnitsforhold indebærer, at rækkefølgen af reference- og indekstest kan være forskellig, så længe testene udføres på (næsten) samme tidspunkt eller uden for stor forsinkelse (se ovenfor). Således kan reference- og indeksprøven udføres samtidig, referenceprøven kan udføres efter indeksprøven, eller indeksprøven kan udføres efter referenceprøven. For undersøgelser af kohortetypen om prognostisk/prædikativ nøjagtighed indebærer det longitudinale forhold, at indekstesten altid udføres før referencetesten.

I case-control-designs er udvælgelsen af deltagere baseret på sundhedstilstand/resultatet. Resultaterne af indekstesten for deltagere med et positivt referencetestresultat/begivenhed (cases) sammenlignes med resultaterne af indekstesten for deltagere med et negativt referencetestresultat/ingen begivenhed (kontroller). I lighed med case-kontrolundersøgelser af eksponeringer eller interventioner kan tilfælde og kontroller komme fra samme kilde (f.eks. et register) eller fra forskellige kilder (f.eks. tilfælde fra et Alzheimer-register og kontroller fra en administrativ database). I case-kontrolundersøgelser om diagnostisk nøjagtighed udføres referencetesten på individniveau altid før indekstestet, men synet/fortolkningen (f.eks. retrospektiv journalgennemgang) af resultaterne af indekstestet er altid retrospektivt. Det er vigtigt at bemærke, at der i case-kontrol-designs ikke kan beregnes prædiktive værdier, fordi prævalensen/incidensen (kolonnesummen i 2 × 2 tabellen over deltagere, der er klassificeret positive og negative med referencetesten) er et kunstigt resultat af designet (f.eks. 50 % i 1:1 case-kontrol matching).

Vi foreslår at betegne diagnostiske nøjagtighedsundersøgelser med patientudvælgelse baseret på mistanke “kohorteudvalgte tværsnitsundersøgelser” og undersøgelser med case-baseret prøveudtagning “case-kontroludvalgte tværsnitsundersøgelser”. Denne mærkning sikrer en klar differentiering i forhold til longitudinelle undersøgelsesdesigns og angiver deltagerudvælgelsesmetoden. Selv om vi er klar over, at det kan virke modsat at kombinere betegnelserne kohorte og tværsnitsundersøgelse, mener vi, at denne mærkning er at foretrække frem for en helt ny mærkning, fordi de fleste bedømmere er bekendt med disse standardudvælgelsesmetoder.

Figur a og c i tabel 2 illustrerer udformningen af henholdsvis en “tværsnitsundersøgelse med kohorteudvælgelse” og en “tværsnitsundersøgelse med case-control-udvælgelse”.

Tabel 2 Undersøgelsesdesigns til vurdering af testens nøjagtighed

De klassifikationer (f.eks. positiv versus negativ), der er resultatet af en indekstest til bedømmelse af prognose/forudsigelse, kan betragtes som forskellige eksponeringer (f.eks. høj risiko for at udvikle demens vs. lav risiko for at udvikle demens), og observationsperioden er longitudinel. Den eneste forskel i forhold til den klassiske kohorte- og case-kontrolundersøgelse i epidemiologien er effektmålet (testnøjagtighedsmål i stedet for risikokvoter). Derfor foreslår vi, at prognostiske/prædiktive nøjagtighedsundersøgelser betegnes på samme måde, nemlig “kohorteundersøgelser” og “case-kontrolundersøgelser”.

Figur b og d i tabel 2 illustrerer udformningen af henholdsvis en “kohorteundersøgelse” og en “case-kontrolundersøgelse”.

Enten testnøjagtighedsundersøgelser kan være baseret på data, der specifikt indsamles til undersøgelsen (dvs. en undersøgelsesdatabase), eller på allerede eksisterende datakilder (f.eks. rutinemæssigt indsamlede data). Ofte anvendes klassifikationen retrospektiv/prospektiv til at skelne mellem, om dataene blev indsamlet specifikt til undersøgelsen, eller om der blev anvendt en allerede eksisterende datakilde. Vi anbefaler, at man undgår denne klassifikation af to grunde. For det første har undersøgelser ofte både prospektive (f.eks. analyseplan) og retrospektive aspekter (f.eks. dataindsamling) . For det andet ville dette især for undersøgelser af diagnostisk nøjagtighed føre til besværlige klassifikationer (f.eks. retrospektiv tværsnitsundersøgelse). I stedet bør den datakilde, der er anvendt til undersøgelsen, beskrives klart i den systematiske gennemgang.

Illustrerende eksempler

Tabel 3 viser et illustrerende eksempel for hver type undersøgelse af testnøjagtighed. I eksempelundersøgelse 1 modtog alle nyretransplanterede modtagere på mindst 50 år en fækal immunokemisk test (indekstest) til screening for kolorektal cancer. Efter den fækale immunokemiske test blev patienterne henvist til koloskopi (referencetest). I denne undersøgelse var prøveudtagningen baseret på mistanke (nyretransplanterede personer). Indekstesten og referencetesten blev udført på samme tidspunkt (sygdommen er sandsynligvis ikke fremskreden). Derfor er denne undersøgelse en tværsnitsundersøgelse med kohorteprøvetagning om diagnostisk nøjagtighed (se tabel 2 figur a).

Tabel 3 Eksempler på de forskellige typer af nøjagtighedsundersøgelser

I det andet eksempel blev patienter med en klinisk diagnose (referencetest) af Alzheimers (cases), der kom til en hukommelsesklinik, matchet med deltagere uden Alzheimers, som blev rekrutteret blandt slægtninge, der ledsagede patienterne til hukommelsesklinikken (ingen sygdom, kontroller). Patienterne såvel som de pårørende modtog en kognitiv test (indekstest) under besøget på hukommelsesklinikken. Udvælgelsen af deltagere var baseret på sygdom i den ene gruppe og fravær af sygdom i den anden gruppe. Selv om referencetesten blev udført på et andet tidspunkt end indekstesten, kan den betragtes som det samme tidspunkt, fordi sygdommen ikke kunne være blevet løst, dvs. stadig er en aktuel status. Følgelig er denne undersøgelse en case-kontrolundersøgelse med tværsnitlig prøveudtagning af diagnostisk nøjagtighed (se tabel 2 figur c).

Det tredje eksempel undersøger alle patienter mellem 50 og 90 år (mistanke) i en sundhedsorganisation med betalingsudbyder. I undersøgelsen blev patientkarakteristika og andre faktorer formelt kombineret i en prognostisk model. Den prognostiske model beregner en score, der dikotomiseres ved hjælp af forskellige cut-offs (indekstest). For hver deltager blev risikoen for at udvikle brud inden for 5 år (fremtidig begivenhed) forudsagt. Udtagning af stikprøver blev baseret på mistanke, og et fremtidigt resultat blev forudsagt. Selv om det ikke fremgår helt klart af publikationen, kan det antages, at de fleste patienter ikke blev behandlet for osteoporose. Derfor er undersøgelsen et kohortestudie til vurdering af prognostisk nøjagtighed (se tabel 2 figur b).

Den sidste eksempelundersøgelse omfattede mænd på mindst 40 år (mistanke), som havde resultater af en blodprøvetagning fra en større befolkningsbaseret kohortestudie. Patienter med prostatakræft (udfaldsbegivenhed) blev udtaget og matchet med patienter uden prostatakræft (ingen udfaldsbegivenhed, kontroller). De prostataspecifikke antigenniveauer (indekstest) fra den forudgående blodprøvetagning blev kategoriseret og sammenlignet. Deltagerne var ubehandlede, prøvetagningen var baseret på udfaldet, og et fremtidigt udfald er forudsagt. Undersøgelsen er derfor en (nested) case-control-undersøgelse til vurdering af prognostisk nøjagtighed (se tabel 2 figur d).

Begrænsninger

Vores algoritme dækker kun de grundlæggende designtræk ved undersøgelser af testnøjagtighed. Der findes yderligere kriterier, som er vigtige for vurderingen af risikoen for bias og for vurderingen af tilliden til bevismaterialet. Især prøveudtagningsmetoden er vigtig i denne henseende. Undersøgelser af kohortetypen med en konsekutiv eller tilfældig stikprøve (f.eks. den ene arm i et randomiseret kontrolleret forsøg) anses for at give mindst biased information om testnøjagtighed. Desuden bør undersøgelsespopulationen være repræsentativ for målpopulationen, således at der kan opnås eksternt valide nøjagtighedsmålinger .

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.