En algoritm för klassificering av studiedesigns för att bedöma diagnostisk, prognostisk och prediktiv testnoggrannhet i systematiska översikter

sep 8, 2021
admin

Resultat av medicinska tester är den viktigaste källan för att informera om kliniskt beslutsfattande. Testnoggrannhet är ett tests förmåga att skilja mellan olika patientgrupper (t.ex. friska och sjuka). Det första steget i bedömningen av värdet av ett medicinskt test innan man utför jämförande effektstudier (t.ex. randomiserade kontrollerade studier) av olika test är bedömningen av testets noggrannhet. Om det inte finns några effektstudier kan bevis för testnoggrannhet dessutom användas för att uppskatta effekterna på viktiga resultat för patienten genom att koppla bevisen för de olika vårdvägar (t.ex. ingen behandling vs. behandling) som följer av de olika testbaserade klassificeringarna till testnoggrannhetsmåtten (t.ex.

Användningen av test, till och med samma test, inom hälso- och sjukvården kan vara mångsidig när det gäller den kliniska frågan (t.ex. diagnos av ett hälsotillstånd, förutsägelse av behandlingsframgång) och syftet (t.ex. screening eller övervakning, behandlingsövervakning eller stadieindelning). Dessutom används medicinska tester vanligtvis inte ensamma utan i olika konstellationer med andra tester, inklusive triage före ett annat test, tillägg till ett annat test och parallell testning med ett annat test.

Förutom de många olika användningsområdena är studier av testnoggrannhet ofta otydligt märkta i den medicinska litteraturen när det gäller skillnaden mellan diagnos, prognos och förutsägelse (se t.ex. ), och när det gäller den underliggande epidemiologiska studiedesignen (se t.ex. ). Dessa aspekter försvårar en korrekt klassificering av studiedesignen.

Systematiska översikter om testnoggrannhet (t.ex. om sensitivitet och specificitet) sammanfattar testnoggrannhetsmått från flera studier. En konsekvent och tydlig definition av studiedesignerna är avgörande för kvaliteten vid flera uppgifter i den systematiska granskningen. Detta inkluderar urval av studier, val av verktyg för bedömning av risk för bias, beslut om vilka studier som ska sammanföras i samma metaanalys och bedömning av säkerheten i bevismaterialet .

I det följande föreslår vi en algoritm för klassificering av studier om testnoggrannhet i systematiska översikter.

Förberedande överväganden

Denna algoritm gäller endast studier som jämför resultaten av ett indextest (det test som ska utvärderas) med resultaten av ett referenstest (det test vars resultat anses vara korrekt/den gyllene standarden). Testerna av intresse måste möjliggöra en binär klassificering, antingen genom att använda ett gränsvärde för ett kategoriskt eller kontinuerligt mått (t.ex. högt vs. lågt blodtryck, poäng i en prognostisk modell) eller vara binära till sin natur. Algoritmen kan användas för alla test som används inom hälso- och sjukvården. Testet kan vara ett enskilt test (t.ex. bilddiagnostik) eller en fördefinierad kombination (AND- eller OR-länk) av tester (t.ex. bilddiagnostik och laboratorium) eller faktorer (t.ex. symtom, patientens egenskaper) som formellt kombineras i en diagnostisk eller prognostisk modell . När granskarna tillämpar algoritmen bör de vara medvetna om att testet inte får vara ett test i snäv bemärkelse (t.ex. laboratorietester, diagnostiska anordningar). Det kan också vara en observation (t.ex. frisk), ett medicinskt förfarande (t.ex. allmän hälsokontroll) eller en klinisk bedömning (t.ex. inspektion av liket).

Algoritmen kan inte användas för studier av testkalibrering och studier av testtillförlitlighet (t.ex. test-reteststudier). Algoritmen kan vidare inte användas för klassificering av jämförande studier och effektstudier av tester. Detta är alla studier som jämför noggrannheten hos minst två tester som använder samma referensstandard eller studier som jämför effekten av olika tester på hälsoutfall (t.ex. en randomiserad kontrollerad studie som jämför två olika screeningstrategier med avseende på effekten på dödligheten). Det är dock viktigt att beakta att i jämförande studier av tester kan enskilda delar av studien där ett test utförs betraktas som studier av testnoggrannhet (t.ex. den del av en randomiserad kontrollerad studie där ett screeningtest används) och därmed kan vara (potentiellt) relevant för de systematiska översikterna av testnoggrannhet. Studier där ett relativt effektmått beräknas men där inget mått på testnoggrannhet kan beräknas (t.ex. studier av prognostiska faktorer) beaktas inte heller i detta dokument eftersom de kan klassificeras som studier av exponering (t.ex. fall-kontrollstudier). För dessa studier om exponering och studier om jämförande effekter har klassificeringar beskrivits på andra ställen.

Klassificeringsalgoritmen

Klassificeringsalgoritmen presenteras i fig. 1. De studiedesigns som kan klassificeras med algoritmen visas i tabell 2. I följande punkter förklaras tillämpningen av algoritmen. För att illustrera detta kan läsaren tänka sig en systematisk översikt om testnoggrannheten hos korta kognitiva test för äldre personer, för vilken vi ger exempel genom hela beskrivningen av algoritmen.

Figur 1
figur1

Algoritm för klassificering av beskrivningar av studier av testnoggrannhet

Är det en studie av testnoggrannhet?

Det är inte alltid direkt uppenbart om den aktuella studien verkligen är en testnoggrannhetsstudie, eftersom studierna kanske inte rapporterar noggrannhetsmått utan endast tillhandahåller uppgifter som gör det möjligt att beräkna noggrannhetsmått (t.ex. känsligheten hos det kognitiva testet för att diagnostisera demens). Författarna till systematiska översikter måste med andra ord kontrollera om det är möjligt att beräkna en 2 × 2 korstabulering (se tabell 1). Därför är det första kriteriet i algoritmen frågan om studien är en testnoggrannhetsstudie.

Tabell 1 2 × 2 korstabell för beräkning av testnoggrannhetsmått

Diagnostisk, prognostisk eller prediktiv testnoggrannhet (tvärsnitt eller longitudinell)?

Tester inom hälso- och sjukvården kan användas för att ställa diagnos, prognostisera och/eller göra prognoser. Med diagnos avses ”sannolikheten för att ett visst resultat eller en viss sjukdom föreligger (eller saknas) hos en individ vid denna tidpunkt”. Detta innebär att i studier av diagnostisk noggrannhet används testinformationen för att göra en klassificering av ett aktuellt hälsotillstånd (t.ex. kognitivt nedsatt vs. frisk). Prognos däremot avser risken för (eventuella) framtida hälsoutfall hos personer med en viss sjukdom eller ett visst hälsotillstånd (t.ex. hög risk respektive låg risk att dö inom ett år) . För tester innebär detta att prognostiska och prediktiva noggrannhetsstudier klassificerar risken för att utveckla ett resultat i framtiden, som inte finns vid den tidpunkt då testet används. Prognos kan ytterligare delas in i prognostisk och prediktiv forskning. Prognostisering tar hänsyn till sjukdomars naturliga förlopp och besvarar därmed frågan om vem som behöver behandling (t.ex. finns det bara ett behandlingsbehov om det finns en risk för att utveckla demens). Prediktion syftar till att förutsäga utfallet hos behandlade patienter och besvarar därmed frågan om vem och hur man bör behandla (t.ex. är kognitionsträning hos personer med lindrig kognitiv svikt endast nödvändig om det finns en chans till förbättring) . I det följande kommer vi att betrakta prognos- och prediktionstester tillsammans eftersom båda har ett longitudinellt perspektiv från nutid till framtid och deras testnoggrannhet därför kan bedömas med samma studiedesign. Författare av systematiska översikter bör dock noga överväga om studien som bedöms tar hänsyn till sjukdomars naturliga förlopp (prognos) eller tar hänsyn till behandlade patienter (prediktion).

Det andra kriteriet i klassificeringsalgoritmen är frågan om syftet med den aktuella studien är att bedöma den diagnostiska noggrannheten eller den prognostiska/förutsägande noggrannheten hos ett test. Eftersom den huvudsakliga skillnaden mellan dessa två är tidskomponenten (nuvarande kontra framtida status), tar det andra klassificeringskriteriet hänsyn till tidsintervallet mellan index- och referenstestet. En diagnos är en klassificering av en aktuell status. All information om en enskild deltagare avser samma tidpunkt (t.ex. kognitivt test visar att patienten för närvarande lider av demens). Detta innebär att alla undersökningar av diagnostisk noggrannhet är tvärsnittsstudier . Eftersom en diagnos ger information om ett aktuellt tillstånd bör referenstestet och indextestet utföras vid samma tidpunkt. När detta kriterium tillämpas är det viktigt att hänvisa till tidpunkten för insamling av information om index- och referenstest för en enskild studiedeltagare och inte till tidpunkten för insamling av data för studien (t.ex. journalgranskning för att verifiera demensdiagnosen) för att undvika förvirring. En patient kan till exempel få ett indextest (t.ex. ett kort kognitivt test) i primärvården och ett referenstest (t.ex. en omfattande kognitiv bedömning) vid en sjukhusvistelse flera månader senare. Informationen om båda testresultaten samlas in från rutinmässigt insamlade hälso- och sjukvårdsdata vid samma tidpunkt (t.ex. ett patientregister över geriatriska patienter). Även om uppgifterna för studien samlas in vid samma tidpunkt från registret är studien inte tvärsnittsstudie eftersom index- och referenstestet inte utförs vid samma tidpunkt på individuell deltagarnivå. I praktiken är de tidpunkter vid vilka testerna utförs vanligtvis inte exakt desamma. Samma tidpunkt kan alltså betyda nästan samma tidpunkt (t.ex. kort kognitivt test och omfattande kognitiv bedömning vid samma besök) eller att det ena testet utförs i närheten av det andra (t.ex. kort kognitivt test och omfattande kognitiv bedömning vid samma sjukhusvistelse). Man bör bedöma om tidsintervallet i den aktuella studien var tillräckligt, med tanke på sannolikheten att patientens status (t.ex. ingen kognitiv nedsättning) inte har förändrats mellan index- och referenstestet . Följaktligen beror den acceptabla fördröjningen på tillståndet och är större vid långsamt fortskridande tillstånd än vid snabbt fortskridande tillstånd. För klassificeringen av studiens utformning innebär detta att om det kan motiveras att det är osannolikt att statusen har förändrats (t.ex. diagnosen Alzheimerdemens) kan studier med en fördröjning mellan index- och referenstestet också klassificeras som tvärsnittsstudier. Eftersom det inte kan uteslutas att patientens status har ändrats mellan de två testerna finns det en risk för felklassificering i studier av diagnostisk noggrannhet eftersom förhållandet mellan patientgrupperna (t.ex. andelen som klassificeras som kognitivt nedsatt eller inte kognitivt nedsatt) till följd av testklassificeringen kan ha ändrats under tiden . Vi föreslår att två tidsintervall mellan index- och referenstestet specificeras i förväg i systematiska utvärderingar av diagnostisk testnoggrannhet. Ett för beslutet om att inkludera testet i den systematiska granskningen och ett annat kriterium (vanligtvis ett mindre tidsintervall) för att bedöma låg/måttlig risk för fördröjd verifieringsbias . Specificeringen av tröskelvärdena kräver vanligtvis expertis från en metodolog och en kliniker.

En prognos/förutsägelse är en klassificering av ett framtida tillstånd. I studier om prognos/förutsägelse används indextestet för att klassificera deltagarna enligt deras risk för att utveckla ett visst utfall (t.ex. progression av mild kognitiv försämring till demens), eller terapisvar (t.ex. ett svar på kognitiv träning). Här används referenstestet för att bedöma utfallsstatusen. Informationen om index- och referenstestresultat för en enskild deltagare avser olika tidpunkter. Detta innebär att studier om prognos/förutsägelse alltid är longitudinella eftersom det finns upprepade observationer, nämligen resultatet av indextestet och senare resultatet av referenstestet för varje deltagare . Till skillnad från studier av diagnostisk noggrannhet bör tidsintervallet mellan indextestet och referenstestet inte vara för kort utan ”tillräckligt” långt. Tidsintervallet bör väljas på ett sådant sätt att om det intressanta resultatet inte har inträffat (t.ex. negativt test för demens) är det osannolikt att det kommer att inträffa kort därefter (t.ex. kommer den milda kognitiva funktionsnedsättningen troligen inte att utvecklas till demens under de närmaste månaderna). Förutom en livstidsperiod är ofta information om vissa fördefinierade tidsintervall kliniskt relevant (t.ex. utveckling av demens inom de närmaste fem åren). I forskningspraxis kan valet av tidsintervall dock snarare styras av tillgången till uppgifter (t.ex. uppföljningens längd) än av klinisk betydelse. Förutom bedömningen av den kliniska relevansen är tidsintervallet i den aktuella studien avgörande för bedömningen av risken för bias. En otillräcklig längd på uppföljningen kan leda till en snedvridning i studier med oblindade indextestresultat, eftersom man hos deltagare med ett positivt indextest (t.ex. indikation på kognitiv försämring) misstänker att en händelse har inträffat (t.ex. att de drabbas av demens). Därför har deltagare med ett positivt indextest ofta större chans att övervakas noggrannare och därmed också större chans att få referenstestet tidigare (t.ex. genom intensivare övervakning av kognitiv funktion) än deltagare med ett negativt indextestresultat. Dessutom kan observationen av färre händelser i en grupp vara falska om testresultatet endast är förknippat med en fördröjning av händelserna men faktiskt inte sänker händelsegraden med tanke på en livstidsperiod. Därför föreslår vi, precis som för diagnos, att författare till systematiska översikter i förväg specificerar två tidsintervall. Ett för att välja studier som bör väljas beroende på tidshorisonten av intresse (t.ex. tidig eller sen progression) och ett för att bedöma studiernas risk för bias . Det är viktigt att notera att det såvitt vi vet inte finns något verktyg för att bedöma den metodologiska kvaliteten för studier om prognostisk noggrannhet.

Författare till systematiska översikter kommer regelbundet att vara intresserade av antingen diagnostisk noggrannhet (t.ex. diagnos av lindrig kognitiv nedsättning) eller prognostisk/förutsägande noggrannhet (t.ex. att förutsäga demens hos patienter med lindrig kognitiv nedsättning). En förspecifikation av tidsintervallen för urvalet av studier är därför mycket viktig för att skilja diagnostiska från prognostiska/förutsägande studier, i synnerhet eftersom samma test ofta kan användas både för diagnos och prognos/förutsägelse (se t.ex. ). Detta innebär att den kliniska frågan inte alltid kan härledas från själva testet, utan att endast tidsintervallet mellan indextestet och referenstestet anger om studien avser samtidig eller prediktiv noggrannhet. Dessutom kan det vara svårt att göra skillnad eftersom övergången från fördröjd verifiering till prognos/förutsägelse kan vara flytande.

Om författare till systematiska översikter är övertygade om att testet uteslutande kan användas för antingen diagnos eller prognos/förutsägelse, kan de endast använda algoritmens respektive (diagnos, prognos/förutsägelse)-väg.

Kohorttyp eller fall-kontroll-urval av deltagare?

Det andra kriteriet skiljer studier av kohorttyp från studier av fall-kontrolltyp och kan tillämpas för studier av diagnostisk noggrannhet på liknande sätt som för studier av prognostisk/prediktiv noggrannhet.

I allmänhet skiljer sig studier av kohorttyp och studier av fall-kontrolltyp åt genom metoden för att välja ut deltagarna till studien . I studier av testnoggrannhet av kohorttyp rekryteras deltagarna på grundval av misstanke. Med misstanke menas att det finns en indikation för att utföra testet, inklusive tecken och symtom, förekomst av riskfaktorer (t.ex. patientens egenskaper, miljö) eller resultat av tidigare medicinska tester.

Teoretiskt sett kan personer i befolkningsundersökningar väljas ut oavsett om det finns en indikation för detta eller inte. I praktiken är detta dock inte det vanliga fallet, utan även i de flesta befolkningsbaserade screeningprogram finns det åtminstone en vag indikation för att utföra ett test (t.ex. viss åldersgrupp, visst kön). I kohortkonstruktioner får alla misstänkta deltagare indextestet och referenstestet för att fastställa deras nuvarande status (diagnos) eller för att bedöma deras resultatstatus (prognos/förutsägelse). I studier av diagnostisk kohorttyp utförs indextestet och referenstestet samtidigt. Detta tvärsnittsförhållande innebär att ordningsföljden för referens- och indextestet kan skilja sig åt så länge som testerna utförs vid (nästan) samma tidpunkt eller utan alltför stor fördröjning (se ovan). Referens- och indexprovet kan således utföras samtidigt, referensprovet kan utföras efter indexprovet eller indexprovet kan utföras efter referensprovet. För studier av kohorttyp om prognostisk/förutsägande noggrannhet innebär det longitudinella förhållandet att indextestet alltid utförs före referenstestet.

I fall-kontrollstudier baseras urvalet av deltagare på hälsotillstånd/utfall. Resultaten av indextestet för deltagare med ett positivt referenstestresultat/händelse (fall) jämförs med resultaten av indextestet för deltagare med ett negativt referenstestresultat/ingen händelse (kontroller). I likhet med fall-kontrollstudier om exponering eller interventioner kan fall och kontroller komma från samma källa (t.ex. ett register) eller olika källor (t.ex. fall från ett Alzheimerregister och kontroller från en administrativ databas). I fall-kontrollstudier om diagnostisk noggrannhet utförs referenstestet på individuell deltagarnivå alltid före indextestet, men synen/tolkningen (t.ex. retrospektiv journalgranskning) av resultaten av indextestet är alltid retrospektiv. Det är viktigt att notera att i fall-kontrollkonstruktioner kan inga prediktiva värden beräknas eftersom prevalensen/incidensen (kolumnsumman i 2 × 2 tabellen av deltagare som klassificeras som positiva och negativa med referenstestet) är ett artificiellt resultat av konstruktionen (t.ex. 50 % i 1:1 fall-kontrollmatchning).

Vi föreslår att diagnostiska noggrannhetsstudier med patienturval baserat på misstanke ska betecknas som ”kohorturvald tvärsnittsstudie” och studier med fallbaserat provtagningsmaterial som ”fall-kontrollurvald tvärsnittsstudie”. Denna märkning säkerställer en tydlig differentiering till longitudinella studiedesigns och anger metoden för urval av deltagare. Även om vi är medvetna om att det verkar motsägelsefullt att kombinera etiketterna kohort och tvärsnittsstudie, anser vi att en sådan märkning är att föredra framför en helt ny märkning, eftersom de flesta granskare är bekanta med dessa standardiserade urvalsmetoder.

Figur a och c i tabell 2 illustrerar utformningen av en ”tvärsnittsstudie med kohorturval” respektive en ”tvärsnittsstudie med fall-kontrollurval”.

Tabell 2 Studieupplägg för att bedöma testnoggrannhet

Klassificeringarna (t.ex. positiv kontra negativ) som följer av ett indextest för att bedöma prognos/förutsägelse kan betraktas som olika exponeringar (t.ex. hög risk för att utveckla demens jämfört med låg risk för att utveckla demens) och observationsperioden är longitudinell. Den enda skillnaden mot den klassiska kohort- och fall-kontrollstudien inom epidemiologin är effektmåttet (mått på testnoggrannhet i stället för riskkvoter). Därför föreslår vi att prognostiska/förutsägande noggrannhetsstudier märks på samma sätt, nämligen ”kohortstudier” och ”fall-kontrollstudier”.

Figur b och d i tabell 2 illustrerar utformningen av en ”kohortstudie” respektive en ”fall-kontrollstudie”.

Endera testnoggrannhetsstudier kan baseras på data som samlats in specifikt för studien (dvs. en studiedatabas) eller på redan existerande datakällor (t.ex. rutinmässigt insamlade data). Ofta används klassificeringen retrospektiv/prospectiv för att särskilja om uppgifterna samlades in specifikt för studien eller om en redan befintlig datakälla användes. Vi rekommenderar att man undviker denna klassificering av två skäl. För det första har studier ofta både prospektiva (t.ex. analysplan) och retrospektiva aspekter (t.ex. datainsamling) . För det andra skulle detta leda till besvärliga klassificeringar (t.ex. retrospektiv tvärsnittsstudie), särskilt när det gäller studier av diagnostisk noggrannhet. I stället bör den datakälla som använts för studien tydligt beskrivas i den systematiska granskningen.

Illustrerande exempel

Tabell 3 visar ett illustrerande exempel för varje typ av studie om testnoggrannhet. I exempelstudie 1 fick alla njurtransplanterade personer som var minst 50 år gamla ett fekalt immunokemiskt test (indextest) för screening av kolorektalcancer. Efter det fekala immunokemiska testet hänvisades patienterna till koloskopi (referenstest). I denna studie baserades provtagningen på misstanke (mottagare av njurtransplantat). Indextestet och referenstestet utfördes vid samma tidpunkt (sjukdomen har troligen inte fortskridit). Följaktligen är denna studie en tvärsnittsstudie med kohortprovtagning om diagnostisk noggrannhet (se tabell 2 figur a).

Tabell 3 Exempel på olika typer av noggrannhetsstudier

I det andra exemplet , patienter med en klinisk diagnos (referenstest) av Alzheimers sjukdom (fall) som besöktes en minnesmottagning matchades med deltagare utan Alzheimers sjukdom, som rekryterades bland släktingar som följde med patienterna till minnesmottagningen (ingen sjukdom, kontroller). Såväl patienter som släktingar fick ett kognitivt test (indextest) under besöket på minneskliniken. Urvalet av deltagare baserades på sjukdom i den ena gruppen och avsaknad av sjukdom i den andra. Även om referenstestet utfördes vid en annan tidpunkt än indextestet kan det betraktas som samma tidpunkt eftersom sjukdomen inte kan ha försvunnit, dvs. den är fortfarande aktuell. Följaktligen är denna studie en fall-kontrollstudie med tvärsnittsdiagnostisk noggrannhet (se tabell 2, figur c).

Det tredje exemplet undersöker alla patienter mellan 50 och 90 år (misstanke) i en sjukvårdsorganisation med betalningsförmedlare. I studien kombinerades patientens egenskaper och andra faktorer formellt i en prognostisk modell. Den prognostiska modellen beräknar en poäng som dikotomiseras med hjälp av olika gränsvärden (indextest). För varje deltagare förutspåddes risken för att utveckla frakturer inom 5 år (framtida händelse). Urvalet baserades på misstanke och ett framtida utfall förutspåddes. Även om det inte helt framgår av publikationen kan man anta att de flesta patienterna inte behandlades för osteoporos. Följaktligen är studien en kohortstudie för att bedöma den prognostiska noggrannheten (se tabell 2 figur b).

Den sista exempelstudien omfattade män på minst 40 år (misstanke), som hade resultat av ett blodprov från en större befolkningsbaserad kohortstudie. Patienter med prostatacancer (utfallshändelse) togs ut och matchades med patienter utan prostatacancer (ingen utfallshändelse, kontroller). De prostataspecifika antigennivåerna (indextest) från den tidigare blodprovstagningen kategoriserades och jämfördes. Deltagarna var obehandlade, provtagningen baserades på utfallet och ett framtida utfall förutses. Följaktligen är studien en (nested) fall-kontrollstudie för att bedöma prognostisk noggrannhet (se tabell 2 figur d).

Begränsningar

Vår algoritm täcker endast de grundläggande utformningsdragen för studier av testnoggrannhet. Det finns ytterligare kriterier som är viktiga för bedömningen av risken för bias och för bedömningen av förtroendet för bevismaterialet. Särskilt provtagningsmetoden är viktig i detta avseende. Studier av kohorttyp med ett konsekutivt eller slumpmässigt urval (t.ex. den ena armen i en randomiserad kontrollerad studie) anses ge minst snedvriden information om testnoggrannhet. Dessutom bör studiepopulationen vara representativ för målpopulationen så att externt giltiga mått på noggrannhet kan erhållas.

Lämna ett svar

Din e-postadress kommer inte publiceras.