An algorithm for the classification of study designs to assess diagnostic, prognostic and predictive test accuracy in systematic reviews
Výsledky lékařských testů jsou hlavním zdrojem informací pro klinické rozhodování. Přesnost testu je schopnost testu rozlišit různé skupiny pacientů (např. zdravé a nemocné). Prvním krokem při posuzování hodnoty lékařského testu před provedením srovnávacích studií dopadu (např. randomizovaných kontrolovaných studií) různých testů je posouzení přesnosti testu. Pokud navíc neexistují dopadové studie, lze důkazy o přesnosti testů použít k odhadu účinků na důležité výsledky pro pacienty propojením důkazů o různých způsobech péče (např. žádná léčba vs. léčba) vyplývajících z různých klasifikací založených na testech s mírami přesnosti testů (např.např. falešně negativní výsledky testu) .
Použití testu, dokonce i stejného testu ve zdravotnictví, může být různorodé, pokud jde o klinickou otázku (např. diagnóza zdravotního stavu, předpověď úspěšnosti léčby) a účel (např. screening nebo sledování, monitorování léčby nebo staging). Kromě toho se lékařské testy obvykle nepoužívají samostatně, ale v různých konstelacích s jinými testy, včetně třídění před jiným testem, doplnění jiného testu a paralelního testování s jiným testem.
Kromě rozmanitých oblastí použití jsou studie přesnosti testů v lékařské literatuře často nejasně označeny, pokud jde o rozlišení mezi diagnózou, prognózou a predikcí (např. viz ) a pokud jde o základní design epidemiologické studie (např. viz ). Tyto aspekty komplikují správnou klasifikaci designu studie.
Systematické přehledy o přesnosti testů (např. o citlivosti a specifičnosti) shrnují míry přesnosti testů z několika studií. Důsledná a jasná definice návrhů studií je rozhodující pro kvalitu při několika úkolech systematického přehledu. Patří sem výběr studií, výběr nástroje pro posouzení rizika zkreslení, rozhodnutí, které studie by měly být sdruženy v jedné metaanalýze, a posouzení jistoty souboru důkazů .
V následujícím textu navrhujeme algoritmus pro klasifikaci studií přesnosti testů v systematických přehledech.
Předběžné úvahy
Tento algoritmus se vztahuje pouze na studie porovnávající výsledky indexového testu (test, který má být hodnocen) s výsledky referenčního testu (test, jehož výsledky jsou považovány za správné/zlatý standard). Testy, které jsou předmětem zájmu, musí umožňovat binární klasifikaci, a to buď pomocí cut-off pro kategoriální nebo spojitou míru (např. vysoký vs. nízký krevní tlak, skóre prognostického modelu), nebo musí být binární povahy. Algoritmus lze použít pro jakýkoli test používaný ve zdravotnictví. Tímto testem může být jeden test (např. zobrazovací vyšetření) nebo předem definovaná kombinace (vazba AND nebo OR) testů (např. zobrazovací a laboratorní) nebo faktorů (např. symptomy, charakteristiky pacienta), které jsou formálně kombinovány v diagnostickém nebo prognostickém modelu . Při použití algoritmu by si recenzenti měli být vědomi toho, že se nesmí jednat o test v úzkém slova smyslu (např. laboratorní testy, diagnostické přístroje). Může to být také pozorování (např. zdravý), lékařský postup (např. všeobecná zdravotní prohlídka) nebo klinické posouzení (např. prohlídka mrtvoly).
Algoritmus nelze použít pro studie o kalibraci testů a studie o spolehlivosti testů (např. studie test-retest). Algoritmus dále nelze použít pro klasifikaci srovnávacích a dopadových studií testů. Jedná se o všechny studie, které porovnávají přesnost alespoň dvou testů za použití stejného referenčního standardu, nebo studie, které porovnávají dopad různých testů na zdravotní výsledky (např. randomizovaná kontrolovaná studie, která porovnává dvě různé screeningové strategie z hlediska dopadu na úmrtnost) . Je však důležité vzít v úvahu, že ve srovnávacích studiích testů lze jednotlivá ramena studie, v nichž je test prováděn, považovat za studie přesnosti testů (např. rameno randomizované kontrolované studie, v němž je použit screeningový test), a tudíž mohou být (potenciálně) relevantní pro systematické přehledy přesnosti testů. Studie, v nichž se vypočítává míra relativního účinku, ale nelze vypočítat míru přesnosti testu (např. studie prognostických faktorů), se v tomto dokumentu rovněž neberou v úvahu, protože je lze klasifikovat jako studie expozice (např. studie případů a kontrol) . Pro tyto studie o expozicích i srovnávací studie dopadů byly klasifikace popsány jinde .
Klasifikační algoritmus
Klasifikační algoritmus je uveden na obr. 1. Návrhy studií, které lze pomocí algoritmu klasifikovat, jsou uvedeny v tabulce 2. V následujících odstavcích je vysvětleno použití algoritmu. Pro ilustraci si čtenář může představit systematický přehled o přesnosti testů krátkého kognitivního testu pro starší osoby, pro který uvádíme příklady v celém popisu algoritmu.
Jedná se o studii přesnosti testů?
Není vždy přímo zřejmé, zda je posuzovaná studie skutečně studií přesnosti testu, protože studie nemusí uvádět míry přesnosti, ale pouze poskytovat údaje, které umožňují výpočet míry přesnosti (např. citlivost kognitivního testu pro diagnostiku demence). Jinými slovy, autoři systematických přehledů musí ověřit, zda je možné vypočítat křížovou tabulku 2 × 2 (viz tabulka 1). Prvním kritériem algoritmu je tedy otázka, zda se jedná o studii přesnosti testu.
Diagnostická, prognostická nebo prediktivní přesnost testu (průřezová nebo longitudinální)?
Testy ve zdravotnictví lze použít pro diagnostiku, prognózu a/nebo predikci. Diagnóza se vztahuje k „pravděpodobnosti, že určitý výsledek nebo onemocnění je přítomno (nebo chybí) u jedince, v tomto časovém okamžiku“ . To znamená, že ve studiích diagnostické přesnosti se informace z testu používají ke klasifikaci aktuálního zdravotního stavu (např. kognitivní porucha vs. zdraví). Naproti tomu „prognóza se týká rizika (jakýchkoli) budoucích zdravotních následků u osob s daným onemocněním nebo zdravotním stavem“ (např. vysoké riziko vs. nízké riziko úmrtí do 1 roku) . U testů to znamená, že studie prognostické a prediktivní přesnosti klasifikují riziko vzniku následku v budoucnosti, které není přítomno v době aplikace testu. Prognózu lze dále rozdělit na prognostický a prediktivní výzkum. Prognóza zohledňuje přirozený průběh onemocnění a odpovídá tak na otázku, kdo potřebuje léčbu (např. léčba je nutná pouze v případě, že existuje riziko vzniku demence). Predikce se zaměřuje na předvídání výsledku u léčených pacientů, a odpovídá tak na otázku, koho a jak je třeba léčit (např. trénink kognitivních funkcí u osob s mírnou kognitivní poruchou je nutný pouze v případě, že existuje šance na zlepšení) . V následujícím textu se budeme zabývat prognostickými a predikčními testy společně, protože oba mají longitudinální pohled ze současnosti do budoucnosti, a proto lze přesnost jejich testů hodnotit pomocí stejných designů studií. Nicméně autoři systematických přehledů by měli pečlivě zvážit, zda posuzovaná studie zohledňuje přirozený průběh onemocnění (prognóza), nebo zda zohledňuje léčené pacienty (predikce).
Druhým kritériem klasifikačního algoritmu je otázka, zda je cílem posuzované studie posoudit diagnostickou přesnost nebo prognostickou/prediktivní přesnost testu. Protože hlavním rozdílem mezi nimi je časová složka (současný vs. budoucí stav), druhé klasifikační kritérium zohledňuje časový interval mezi indexovým a referenčním testem. Diagnóza je klasifikace aktuálního stavu. Všechny informace o jednotlivém účastníkovi se vztahují ke stejnému časovému bodu (např. kognitivní test ukazuje, že pacient má aktuálně demenci). Z toho vyplývá, že všechny studie diagnostické přesnosti jsou průřezové povahy . Protože diagnóza poskytuje informace o aktuálním stavu, referenční test a indexový test by měly být provedeny ve stejném časovém bodě. Při uplatňování tohoto kritéria je důležité jej vztahovat k časovému bodu sběru informací o indexovém a referenčním testu pro jednotlivého účastníka studie, a nikoli k časovému bodu sběru údajů pro studii (např. přezkoumání karty k ověření diagnózy demence), aby nedošlo k záměně. Například pacient může obdržet indexový test (např. krátký kognitivní test) v primární péči a referenční test (např. komplexní kognitivní hodnocení) při hospitalizaci o několik měsíců později. Informace o výsledcích obou testů se získávají z rutinně shromažďovaných údajů o zdravotní péči ve stejném časovém okamžiku (např. z registru geriatrických pacientů). Přestože jsou údaje pro studii shromažďovány ve stejném časovém bodě z registru, studie není průřezová, protože indexový a referenční test nejsou prováděny ve stejnou dobu na úrovni jednotlivých účastníků. V praxi nejsou časové body, v nichž jsou testy prováděny, obvykle přesně stejné. Stejný časový bod tak může znamenat téměř stejný časový bod (např. krátký kognitivní test a komplexní kognitivní hodnocení při stejné návštěvě) nebo že jeden test je proveden nedaleko druhého (např. krátký kognitivní test a komplexní kognitivní hodnocení při stejné hospitalizaci). Je třeba posoudit, zda byl časový interval v hodnocené studii přiměřený, s ohledem na pravděpodobnost, že se stav pacienta (např. žádná kognitivní porucha) mezi indexovým a referenčním testem nezměnil . Z toho vyplývá, že přijatelná prodleva závisí na stavu a je větší u pomalu progredujících stavů než u rychle progredujících stavů. Pro klasifikaci designu studie to znamená, že pokud lze zdůvodnit, že je nepravděpodobné, že se stav změnil (např. diagnóza Alzheimerovy demence), mohou být studie s prodlevou mezi indexovým a referenčním testem rovněž klasifikovány jako průřezové. Vzhledem k tomu, že nelze vyloučit, že se stav pacienta mezi oběma testy změnil, existuje ve studiích diagnostické přesnosti riziko chybné klasifikace, protože poměr skupin pacientů (např. podíl klasifikovaných jako pacienti s kognitivní poruchou nebo bez kognitivní poruchy) vyplývající z klasifikace testu se mohl mezitím změnit . Navrhujeme, aby v systematických přehledech diagnostické přesnosti testů byly předem specifikovány dva časové intervaly mezi indexovým a referenčním testem. Jeden pro rozhodnutí o zařazení do systematického přehledu a druhé kritérium (obvykle menší časový interval) pro posouzení nízkého/mírného rizika zpožděné verifikační chyby . Specifikace prahových hodnot by obvykle vyžadovala odborné znalosti metodologa a klinika.
Prognóza/předpověď je klasifikace budoucího stavu. Ve studiích prognózy/predikce se indexový test používá ke klasifikaci účastníků podle rizika vzniku určitého výsledku (např. progrese mírné kognitivní poruchy do demence) nebo odpovědi na terapii (např. odpověď na kognitivní trénink). Zde se k posouzení výsledného stavu používá referenční test. Informace o výsledcích indexového a referenčního testu pro jednotlivé účastníky se vztahují k různým časovým bodům. Z toho vyplývá, že studie o prognóze/předpovědi jsou vždy longitudinální, protože existují opakovaná pozorování, a to výsledek indexového testu a později výsledky referenčního testu pro každého účastníka . Na rozdíl od studií diagnostické přesnosti by časový interval mezi indexovým a referenčním testem neměl být příliš krátký, ale „dostatečně“ dlouhý. Časový interval by měl být zvolen tak, aby v případě, že nedošlo k výsledku, který nás zajímá (např. negativní test na demenci), bylo nepravděpodobné, že k němu dojde brzy poté (např. mírná kognitivní porucha pravděpodobně nepřejde v následujících měsících v demenci). Kromě celoživotního období jsou často klinicky relevantní informace o určitých předem definovaných časových intervalech (např. rozvoj demence v následujících 5 letech). Ve výzkumné praxi se však volba časového intervalu může řídit spíše dostupností údajů (např. délkou sledování) než klinickým významem. Kromě posouzení klinické relevance je časový interval ve zvažované studii rozhodující pro posouzení rizika zkreslení. Nedostatečná délka sledování může ve studiích s nezaslepenými výsledky indexových testů způsobit časové zkreslení, protože u účastníků s pozitivním indexovým testem (např. indikace kognitivní poruchy) se předpokládá výskyt události (např. rozvoj demence). Proto mají účastníci s pozitivním výsledkem indexového testu často větší šanci, že budou pečlivěji sledováni, a v důsledku toho mají také větší šanci, že referenční test obdrží dříve (např. prostřednictvím intenzivnějšího sledování kognitivních funkcí), než účastníci s negativním výsledkem indexového testu. Navíc pozorování menšího počtu příhod v jedné skupině může být falešné, pokud je výsledek testu spojen pouze s oddálením příhod, ale ve skutečnosti nesnižuje četnost příhod s ohledem na celoživotní období. Proto stejně jako v případě diagnózy navrhujeme, aby autoři systematických přehledů předem specifikovali dva časové intervaly. Jeden pro výběr studií, které by měly být vybrány v závislosti na časovém horizontu zájmu (např. časná nebo pozdní progrese), a druhý pro posouzení rizika zkreslení studií . Je důležité poznamenat, že pokud je nám známo, pro studie týkající se prognostické přesnosti neexistuje žádný nástroj pro posouzení metodologické kvality.
Autoři systematických přehledů se budou pravidelně zajímat buď o diagnostickou přesnost (např. diagnóza mírné kognitivní poruchy), nebo o prognostickou/prediktivní přesnost (např. předpověď demence u pacientů s mírnou kognitivní poruchou). Předběžná specifikace časových intervalů pro výběr studií je proto velmi důležitá pro rozlišení diagnostických a prognostických/prediktivních studií, zejména proto, že stejný test může být často použit jak pro diagnostiku, tak pro prognózu/předpověď (viz např. ). To znamená, že klinickou otázku nelze vždy odvodit ze samotného testu, ale že pouze časový interval mezi indexovým a referenčním testem ukazuje, zda se jedná o studii souběžnou nebo prognostickou. Rozlišení může být navíc obtížné, protože přechod od opožděné verifikace k prognóze/předpovědi může být plynulý.
Jsou-li autoři systematického přehledu přesvědčeni, že test lze použít výhradně pro diagnózu nebo prognózu/předpověď, mohou použít pouze příslušnou (diagnóza, prognóza/předpověď) cestu algoritmu.
Výběr účastníků typu kohort nebo případů a kontrol?
Druhé kritérium odlišuje studie kohortového typu od studií typu případ-kontrola a lze je použít pro studie diagnostické přesnosti podobně jako pro studie prognostické/predikční přesnosti.
Všeobecně se studie kohortového typu a studie typu případ-kontrola odlišují způsobem výběru účastníků do studie . Ve studiích přesnosti testů kohortového typu jsou účastníci vybíráni na základě podezření. Podezřením se rozumí, že existuje indikace k provedení testu, včetně příznaků a symptomů, přítomnosti rizikových faktorů (např. charakteristiky pacienta, prostředí) nebo výsledků předchozích lékařských vyšetření.
Teoreticky mohou být při populačním screeningu vybíráni lidé bez ohledu na to, zda k tomu existuje indikace či nikoli. V praxi to však není obvyklé, ale i ve většině populačních screeningových programů existuje alespoň vágní indikace k provedení testu (např. určitá věková skupina, pohlaví). V kohortových projektech je všem podezřelým účastníkům proveden indexový test a referenční test ke stanovení jejich aktuálního stavu (diagnózy) nebo k posouzení jejich výsledného stavu (prognózy/předpovědi). V diagnostických kohortových studiích se indexový test a referenční test provádějí současně. Tento průřezový vztah znamená, že pořadí referenčního a indexového testu se může lišit, pokud jsou testy provedeny (téměř) ve stejnou dobu nebo bez přílišného zpoždění (viz výše). Referenční a indexová zkouška tedy mohou být provedeny současně, referenční zkouška může být provedena po indexové zkoušce nebo indexová zkouška může být provedena po referenční zkoušce. U kohortových studií typu prognostické/prediktivní přesnosti z longitudinálního vztahu vyplývá, že indexový test se provádí vždy před referenčním testem.
Při designu případ-kontrola je výběr účastníků založen na zdravotním stavu/výsledku. Výsledky indexového testu účastníků s pozitivním výsledkem referenčního testu/příhody (případy) se porovnávají s výsledky indexového testu účastníků s negativním výsledkem referenčního testu/bez příhody (kontroly). Podobně jako u studií případů a kontrol expozic nebo intervencí mohou případy a kontroly pocházet ze stejného zdroje (např. registru) nebo z různých zdrojů (např. případy z registru Alzheimerovy choroby a kontroly z administrativní databáze). Ve studiích diagnostické přesnosti případů a kontrol je referenční test na úrovni jednotlivých účastníků vždy proveden před indexovým testem, ale pohled/interpretace (např. retrospektivní přezkum záznamů) na výsledky indexového testu je vždy retrospektivní. Je důležité si uvědomit, že v designech případ-kontrola nelze vypočítat žádné prediktivní hodnoty, protože prevalence/incidence (součet sloupců v tabulce 2 × 2 účastníků klasifikovaných jako pozitivní a negativní pomocí referenčního testu) je umělým výsledkem designu (např. 50 % při porovnání 1:1).
Navrhujeme označovat studie diagnostické přesnosti s výběrem pacientů na základě podezření jako „kohortové výběrové průřezové studie“ a studie s výběrem na základě případu jako „průřezové výběrové studie případ-kontrola“. Toto označení zajišťuje jasné odlišení od návrhů longitudinálních studií a označuje metodu výběru účastníků. Ačkoli jsme si vědomi toho, že spojení označení kohortová a průřezová studie prakticky působí protichůdně, domníváme se, že takové označení je vhodnější než zcela nové označení, protože většina recenzentů tyto standardní metody výběru zná.
Obrázek a a c v tabulce 2 znázorňuje design „kohortové výběrové průřezové studie“ a „průřezové studie s výběrem případů a kontrol“.
Klasifikace (např. pozitivní versus negativní) vyplývající z indexového testu k posouzení prognózy/předpovědi lze považovat za různé expozice (např. vysoké riziko vzniku demence versus nízké riziko vzniku demence) a období pozorování je longitudinální. Jediným rozdílem oproti klasické kohortové studii a studii případů a kontrol v epidemiologii je míra účinku (míra přesnosti testu namísto poměru rizika). Proto navrhujeme označovat prognostické/prediktivní studie přesnosti stejným způsobem, a to „kohortové studie“ a „studie případů a kontrol“.
Obrázek b a d v tabulce 2 znázorňují design „kohortové studie“, respektive „studie případů a kontrol“.
Aby studie přesnosti testů mohly být založeny na údajích speciálně shromážděných pro danou studii (tj. databáze studie) nebo na již existujících zdrojích údajů (např. rutinně shromažďované údaje). Často se používá klasifikace retrospektivní/prospektivní, která rozlišuje, zda byla data shromážděna speciálně pro studii, nebo byl použit již existující zdroj dat. Doporučujeme se této klasifikaci vyhnout ze dvou důvodů. Za prvé, studie mají často prospektivní (např. plán analýzy) i retrospektivní aspekty (např. sběr dat) . Za druhé, zejména u studií diagnostické přesnosti by to vedlo k těžkopádné klasifikaci (např. retrospektivní průřezová studie). Místo toho by měl být v systematickém přehledu jasně popsán zdroj dat použitý pro studii.
Ilustrativní příklady
Tabulka 3 uvádí ilustrativní příklad pro každý typ studie přesnosti testů. V příkladové studii 1 byl všem příjemcům transplantované ledviny starším 50 let proveden fekální imunochemický test (indexový test) pro screening kolorektálního karcinomu. Po provedení fekálního imunochemického testu byli pacienti odesláni na kolonoskopii (referenční test). V této studii byl odběr vzorků založen na podezření (příjemci transplantované ledviny). Indexový test a referenční test byly provedeny ve stejnou dobu (onemocnění pravděpodobně nepostoupilo). V důsledku toho je tato studie kohortovou výběrovou průřezovou studií diagnostické přesnosti (viz obrázek a v tabulce 2).
V druhém příkladu , pacienti s klinickou diagnózou (referenční test) Alzheimerovy choroby (případy) navštěvující kliniku paměti byli porovnáni s účastníky bez Alzheimerovy choroby, kteří byli rekrutováni z příbuzných doprovázejících pacienty na kliniku paměti (bez choroby, kontroly). Pacienti i příbuzní absolvovali během návštěvy na klinice paměti kognitivní test (referenční test). Výběr účastníků byl založen na onemocnění v jedné skupině a nepřítomnosti onemocnění v druhé skupině. Ačkoli byl referenční test proveden v jiném čase než indexový test, lze jej považovat za stejný časový bod, protože onemocnění nemohlo být vyřešeno, tj. je stále aktuálním stavem. V důsledku toho je tato studie průřezovou studií diagnostické přesnosti s výběrem případů a kontrol (viz tabulka 2 obrázek c).
Třetí příklad zkoumá všechny pacienty ve věku 50 až 90 let (podezření) ve zdravotnické organizaci poskytovatele plateb. Ve studii byly charakteristiky pacientů a další faktory formálně kombinovány v prognostickém modelu. Prognostický model vypočítává skóre, které je dichotomizováno pomocí různých hraničních hodnot (indexový test). Pro každého účastníka bylo předpovězeno riziko vzniku zlomeniny do 5 let (budoucí událost). Výběr vzorku byl založen na podezření a byl předpovězen budoucí výsledek. Ačkoli to z publikace není zcela jasné, lze předpokládat, že většina pacientů nebyla léčena pro osteoporózu. V důsledku toho se jedná o kohortovou studii k posouzení přesnosti prognózy (viz tabulka 2 obrázek b).
Poslední příkladová studie zahrnovala muže ve věku nejméně 40 let (podezření), kteří měli výsledky odběru krve z větší populační kohortové studie. Byly odebrány vzorky pacientů s karcinomem prostaty (výsledná událost) a porovnány s pacienty bez karcinomu prostaty (bez výsledné události, kontroly). Hladiny prostatického specifického antigenu (indexový test) z předchozího odběru krve byly kategorizovány a porovnány. Účastníci nebyli léčeni, odběr vzorků byl založen na výsledku a předpokládá se budoucí výsledek. Studie je tedy (vnořenou) studií případů a kontrol k posouzení prognostické přesnosti (viz tabulka 2 obrázek d).
Omezení
Náš algoritmus zahrnuje pouze základní rysy designu studií přesnosti testů. Existují další kritéria, která jsou důležitá pro posouzení rizika zkreslení a pro posouzení důvěryhodnosti souboru důkazů. V tomto ohledu je důležitá zejména metoda výběru vzorků. Studie kohortového typu s konsekutivním nebo náhodným vzorkem (např. jedno rameno randomizované kontrolované studie) se považují za studie, které poskytují nejméně zkreslené informace o přesnosti testu. Kromě toho by měla být studovaná populace reprezentativní pro cílovou populaci, aby bylo možné získat externě platné míry přesnosti .
.