Algoritmi tutkimusasetelmien luokitteluun diagnostisen, ennusteellisen ja ennustavan testitarkkuuden arvioimiseksi systemaattisissa katsauksissa

syys 8, 2021

admin

Lääketieteellisten testien tulokset ovat tärkein lähde kliinisen päätöksenteon pohjana. Testin tarkkuudella tarkoitetaan testin kykyä erottaa toisistaan eri potilasryhmät (esim. terveet ja sairaat). Ensimmäinen vaihe lääketieteellisen testin arvon arvioinnissa ennen eri testejä koskevien vertailevien vaikutustutkimusten (esim. satunnaistettujen kontrolloitujen tutkimusten) suorittamista on testin tarkkuuden arviointi. Jos vaikutustutkimuksia ei ole, testin tarkkuutta koskevaa näyttöä voidaan käyttää arvioitaessa vaikutuksia potilaan kannalta tärkeisiin lopputuloksiin yhdistämällä eri testeihin perustuvista luokituksista johtuvia erilaisia hoitopolkuja (esim. ei hoitoa vs. hoito) koskeva näyttö testin tarkkuusmittareihin (esim.

Testin, jopa saman testin, käyttö terveydenhuollossa voi olla monipuolista kliinisen kysymyksen (esim. terveydentilan diagnosointi, hoidon onnistumisen ennustaminen) ja tarkoituksen (esim. seulonta tai seuranta, hoidon seuranta tai vaiheistaminen) suhteen.) Lääketieteellisiä testejä ei myöskään yleensä käytetä yksinään vaan erilaisissa yhdistelmissä muiden testien kanssa, mukaan lukien triage ennen toista testiä, lisäys toiseen testiin ja rinnakkaistestaus toisen testin kanssa.

Moninaisten sovellusalueiden lisäksi testien tarkkuutta koskevat tutkimukset ovat lääketieteellisessä kirjallisuudessa usein epäselvästi merkittyjä diagnoosin, ennusteiden ja ennusteiden erottamisen (ks. esim. ) ja niiden perustana olevan epidemiologisen tutkimusasetelman (ks. esim. ) osalta. Nämä seikat vaikeuttavat tutkimusasetelman oikeaa luokittelua.

Testien tarkkuutta (esim. herkkyyttä ja spesifisyyttä) koskevissa systemaattisissa katsauksissa esitetään yhteenveto useiden tutkimusten testien tarkkuusmittauksista. Tutkimusasetelmien johdonmukainen ja selkeä määrittely on ratkaisevan tärkeää laadun kannalta useissa järjestelmällisen katsauksen tehtävissä. Tällaisia tehtäviä ovat tutkimusten valinta, harhaisuusriskin arviointivälineen valinta, sen päättäminen, mitkä tutkimukset olisi yhdistettävä samaan meta-analyysiin, ja näytön varmuuden arviointi .

Seuraavassa ehdotamme algoritmia testitarkkuutta koskevien tutkimusten luokittelua varten järjestelmällisissä katsauksissa.

Alustavia huomioita

Tämä algoritmi koskee vain tutkimuksia, joissa verrataan indeksitestin (arvioitava testi) tuloksia referenssitestin (testi, jonka tuloksia pidetään oikeina/kultaisena standardina) tuloksiin. Kiinnostavien testien on mahdollistettava binäärinen luokittelu joko käyttämällä kategorisen tai jatkuvan mittarin raja-arvoa (esim. korkea vs. matala verenpaine, ennustemallin pisteet) tai niiden on oltava luonteeltaan binäärisiä. Algoritmia voidaan käyttää mihin tahansa terveydenhuollossa käytettävään testiin. Testi voi olla yksittäinen testi (esim. kuvantaminen) tai ennalta määritelty yhdistelmä (AND- tai OR-linkki) testejä (esim. kuvantaminen ja laboratorio) tai tekijöitä (esim. oireet, potilaan ominaisuudet), jotka yhdistetään muodollisesti diagnostisessa tai ennustemallissa . Kun arvioijat soveltavat algoritmia, heidän on oltava tietoisia siitä, että testi ei saa olla testi suppeassa merkityksessä (esim. laboratoriotestit, diagnostiset laitteet). Se voi olla myös havainto (esim. terve), lääketieteellinen toimenpide (esim. yleinen terveystarkastus) tai kliininen arviointi (esim. ruumiin tarkastus).

Algoritmia ei voida käyttää testien kalibrointia koskevissa tutkimuksissa eikä testien luotettavuutta koskevissa tutkimuksissa (esim. test-retest-tutkimukset). Algoritmia ei myöskään voida käyttää testejä koskevien vertailevien ja vaikuttavuustutkimusten luokitteluun. Näitä ovat kaikki tutkimukset, joissa verrataan vähintään kahden testin tarkkuutta käyttäen samaa vertailustandardia, tai tutkimukset, joissa verrataan eri testien vaikutusta terveystuloksiin (esim. satunnaistettu kontrolloitu tutkimus, jossa verrataan kahta erilaista seulontastrategiaa niiden vaikutuksesta kuolleisuuteen). On kuitenkin tärkeää ottaa huomioon, että testejä koskevissa vertailevissa tutkimuksissa yksittäisiä tutkimushaaroja, joissa testi suoritetaan, voidaan pitää testien tarkkuutta koskevina tutkimuksina (esim. satunnaistetun kontrolloidun tutkimuksen haaraa, jossa käytetään seulontatestiä), ja ne voivat siten olla (mahdollisesti) merkityksellisiä testien tarkkuutta koskevien järjestelmällisten katsausten kannalta. Tutkimuksia, joissa lasketaan suhteellinen vaikutus, mutta joissa ei voida laskea testitarkkuusmittaa (esim. ennustetekijätutkimukset), ei myöskään käsitellä tässä asiakirjassa, koska ne voidaan luokitella altistustutkimuksiksi (esim. tapaus-kontrollitutkimukset). Näiden altistustutkimusten sekä vertailevien vaikutustutkimusten luokittelut on kuvattu muualla.

Luokittelualgoritmi

Luokittelualgoritmi on esitetty kuvassa 1. Algoritmin avulla luokiteltavat tutkimusasetelmat on esitetty taulukossa 2. Seuraavissa kappaleissa selitetään algoritmin soveltamista. Havainnollistukseksi lukija voi kuvitella systemaattisen katsauksen ikääntyneiden ihmisten lyhyiden kognitiivisten testien testitarkkuudesta, josta annamme esimerkkejä koko algoritmin kuvauksen ajan.

Onko kyseessä testitarkkuuden tutkimus?

Aina ei ole suoranaisesti selvää, onko tarkasteltava tutkimus todellakin testien tarkkuutta koskeva tutkimus, koska tutkimukset eivät välttämättä raportoi tarkkuusmittareita vaan toimittavat ainoastaan tietoja, joiden avulla tarkkuusmittarit voidaan laskea (esim. kognitiivisen testin herkkyys dementian diagnosoinnissa). Toisin sanoen järjestelmällisen katsauksen laatijoiden on tarkistettava, onko mahdollista laskea 2 × 2 ristiintaulukointi (ks. taulukko 1). Siksi algoritmin ensimmäinen kriteeri on kysymys, onko tutkimus testien tarkkuutta koskeva tutkimus.

Taulukko 1 2 × 2 -ristiintaulukko testien tarkkuusmittojen laskemista varten

Diagnostinen, ennusteellinen tai ennustava testien tarkkuus (poikkileikkaus- tai pitkittäisleikkaustutkimus)?

Terveydenhuollossa käytettäviä testejä voidaan käyttää diagnostiikkaan, ennusteiden tekemiseen ja/tai ennustamiseen. Diagnoosilla tarkoitetaan ”todennäköisyyttä, että tietty lopputulos tai sairaus esiintyy (tai ei esiinny) yksilössä tällä hetkellä” . Tämä tarkoittaa, että diagnoositarkkuutta koskevissa tutkimuksissa testin tietoja käytetään luokittelemaan nykyinen terveydentila (esim. kognitiivisesti heikentynyt vs. terve). Sen sijaan ”ennusteella viitataan riskiin, joka liittyy (mihin tahansa) tulevaan terveydentilaan ihmisillä, joilla on tietty sairaus tai terveydentila” (esim. suuri riski tai pieni riski kuolla yhden vuoden kuluessa). Testien osalta tämä tarkoittaa sitä, että ennuste- ja ennustetarkkuutta koskevissa tutkimuksissa luokitellaan riski sairastua tulevaisuudessa johonkin lopputulokseen, joka ei ole olemassa silloin, kun testiä käytetään. Ennuste voidaan jakaa edelleen ennuste- ja ennustetutkimuksiin. Ennusteessa otetaan huomioon sairauksien luonnollinen kulku ja vastataan siten kysymykseen, kuka tarvitsee hoitoa (esim. hoitoa tarvitaan vain, jos on olemassa riski sairastua dementiaan). Ennustamisessa pyritään ennustamaan hoidettavien potilaiden lopputulos, ja siten vastataan kysymykseen, ketä ja miten tulisi hoitaa (esim. kognition harjoittelu lievää kognitiivista heikkenemistä sairastaville henkilöille on tarpeen vain, jos paranemisen mahdollisuus on olemassa) . Seuraavassa tarkastelemme ennuste- ja ennustetestejä yhdessä, koska molemmilla on pitkittäisnäkökulma nykyhetkestä tulevaisuuteen ja siksi niiden testien tarkkuutta voidaan arvioida samoilla tutkimusasetelmilla. Systemaattisen katsauksen laatijoiden on kuitenkin harkittava huolellisesti, tarkastellaanko arvioitavana olevassa tutkimuksessa sairauksien luonnollista kulkua (ennuste) vai hoidettuja potilaita (ennuste).

Luokittelualgoritmin toisena kriteerinä on kysymys siitä, onko arvioitavana olevan tutkimuksen tavoitteena arvioida testin diagnostista tarkkuutta vai ennusteellista/ennustavaa tarkkuutta. Koska tärkein ero näiden kahden välillä on aikakomponentti (nykyinen vs. tuleva tila), toisessa luokittelukriteerissä otetaan huomioon indeksi- ja vertailutestin välinen aikaväli. Diagnoosi on nykytilan luokittelu. Kaikki yksittäistä osallistujaa koskevat tiedot viittaavat samaan ajankohtaan (esim. kognitiivinen testi osoittaa, että potilaalla on tällä hetkellä dementia). Tämä merkitsee sitä, että kaikki diagnostisen tarkkuuden tutkimukset ovat luonteeltaan poikkileikkaustutkimuksia. Koska diagnoosi antaa tietoa tämänhetkisestä tilasta, vertailutesti ja indeksitesti olisi suoritettava samana ajankohtana. Tätä kriteeriä sovellettaessa on sekaannusten välttämiseksi tärkeää viitata siihen ajankohtaan, jolloin indeksitestiä ja vertailutestiä koskevat tiedot kerätään yksittäisen tutkimukseen osallistujan osalta, eikä siihen ajankohtaan, jolloin tiedot kerätään tutkimusta varten (esim. sairauskertomuksen tarkastelu dementia-diagnoosin tarkistamiseksi). Potilas voi esimerkiksi saada indeksitestin (esim. lyhyen kognitiivisen testin) perusterveydenhuollossa ja vertailutestin (esim. kattavan kognitiivisen arvioinnin) sairaalassa useita kuukausia myöhemmin. Molempien testien tuloksia koskevat tiedot kerätään rutiininomaisesti kerätyistä terveydenhuollon tiedoista samana ajankohtana (esim. geriatristen potilaiden potilasrekisteri). Vaikka tiedot tutkimusta varten kerätään rekisteristä samaan aikaan, tutkimus ei ole poikkileikkaustutkimus, koska indeksi- ja vertailutestiä ei suoriteta samaan aikaan yksittäisen osallistujan tasolla. Käytännössä ajankohdat, jolloin testit tehdään, eivät yleensä ole täsmälleen samat. Näin ollen sama ajankohta voi tarkoittaa lähes samaa ajankohtaa (esim. lyhyt kognitiivinen testi ja kattava kognitiivinen arviointi samalla käynnillä) tai sitä, että toinen testi tehdään lähellä toista (esim. lyhyt kognitiivinen testi ja kattava kognitiivinen arviointi samalla sairaalajaksolla). On arvioitava, oliko aikaväli arvioitavana olevassa tutkimuksessa riittävä, kun otetaan huomioon todennäköisyys, että potilaan tila (esim. ei kognitiivista heikkenemistä) ei ole muuttunut indeksi- ja vertailutestin välillä. Näin ollen hyväksyttävä viive riippuu tilasta ja on suurempi hitaasti etenevissä tiloissa kuin nopeasti etenevissä tiloissa. Tutkimusasetelman luokittelun kannalta tämä tarkoittaa, että jos voidaan perustella, että on epätodennäköistä, että tila on muuttunut (esim. Alzheimerin dementian diagnoosi), tutkimukset, joissa indeksi- ja vertailutestin välillä on viive, voidaan myös luokitella poikkileikkaustutkimuksiksi. Koska ei voida sulkea pois sitä mahdollisuutta, että potilaan tila on muuttunut kahden testin välillä, diagnoositarkkuutta koskevissa tutkimuksissa on virheellisen luokittelun riski, koska testin luokittelusta johtuva potilasryhmien suhde (esim. kognitiivisesti heikentyneeksi tai ei-kognitiivisesti heikentyneeksi luokiteltujen osuus) on saattanut muuttua sillä välin. Ehdotamme, että diagnostisten testien tarkkuutta koskevissa järjestelmällisissä katsauksissa määritetään etukäteen kaksi aikaväliä indeksi- ja vertailutestin välillä. Toinen kriteeri koskee päätöstä systemaattiseen katsaukseen sisällyttämisestä ja toinen kriteeri (yleensä pienempi aikaväli), jonka perusteella voidaan arvioida viivästyneen todentamisharhan vähäistä tai kohtalaista riskiä. Raja-arvojen määrittely edellyttää yleensä metodologin ja kliinikon asiantuntemusta.

Ennuste/ennuste on tulevan tilan luokittelu. Ennustetta/ennustetta koskevissa tutkimuksissa indeksitestiä käytetään osallistujien luokitteluun sen mukaan, mikä on heidän riskinsä sairastua tiettyyn lopputulokseen (esim. lievän kognitiivisen heikentymisen eteneminen dementiaksi) tai hoitovasteeseen (esim. vaste kognitiiviseen harjoitteluun). Tässä yhteydessä vertailutestiä käytetään lopputuloksen tilan arviointiin. Yksittäisen osallistujan indeksi- ja vertailutestitulosten tiedot viittaavat eri ajankohtiin. Tämä merkitsee sitä, että ennusteita/ennusteita koskevat tutkimukset ovat aina pitkittäistutkimuksia, koska niissä on toistuvia havaintoja, nimittäin indeksitestin tulos ja myöhemmin kunkin osallistujan vertailutestin tulokset. Toisin kuin diagnostista tarkkuutta koskevissa tutkimuksissa, indeksitestin ja vertailutestin välinen aikaväli ei saisi olla liian lyhyt vaan ”riittävän” pitkä. Aikaväli olisi valittava siten, että jos kiinnostavaa lopputulosta ei ole ilmennyt (esim. negatiivinen dementiatesti), on epätodennäköistä, että se ilmenee pian sen jälkeen (esim. lievä kognitiivinen heikentyminen ei todennäköisesti kehity dementiaksi seuraavien kuukausien aikana). Elinikäisen ajanjakson lisäksi usein myös tiedot tietyistä ennalta määritellyistä aikaväleistä ovat kliinisesti merkityksellisiä (esim. dementian kehittyminen seuraavien viiden vuoden aikana). Tutkimuskäytännössä aikaväli voidaan kuitenkin valita pikemminkin tietojen saatavuuden (esim. seurannan pituus) kuin kliinisen merkityksen perusteella. Kliinisen merkityksen arvioinnin lisäksi tarkasteltavassa tutkimuksessa käytetty aikaväli on kriittinen harhan riskin arvioinnin kannalta. Riittämätön seuranta-aika voi aiheuttaa harhaa tutkimuksissa, joissa on sokkouttamattomat indeksitestitulokset, koska osallistujilla, joiden indeksitesti on positiivinen (esim. osoitus kognitiivisesta heikkenemisestä), epäillään tapahtumaa (esim. dementian kehittymistä). Sen vuoksi osallistujilla, joilla on positiivinen indeksitesti, on usein suurempi mahdollisuus tulla seuratuksi tarkemmin ja siten myös suurempi mahdollisuus saada vertailutesti aikaisemmin (esim. kognitiivisten toimintojen intensiivisemmän seurannan kautta) kuin osallistujilla, joilla on negatiivinen indeksitestitulos. Lisäksi havainto siitä, että yhdessä ryhmässä on vähemmän tapahtumia, voi olla virheellinen, jos testitulos liittyy vain tapahtumien viivästymiseen, mutta ei itse asiassa alenna tapahtumamäärää elinaikana. Siksi ehdotamme, että järjestelmällisen katsauksen laatijat määrittelevät diagnoosin tapaan etukäteen kaksi aikaväliä. Toinen tutkimusten valintaa varten, jotka olisi valittava kiinnostavan aikahorisontin mukaan (esim. varhainen tai myöhäinen eteneminen), ja toinen tutkimusten harhaisuusriskin arviointia varten. On tärkeää huomata, että tietojemme mukaan ennustetarkkuutta koskevien tutkimusten osalta ei ole olemassa työkalua metodologisen laadun arvioimiseksi.

Systemaattisten katsausten laatijat ovat säännöllisesti kiinnostuneita joko diagnostisesta tarkkuudesta (esim. lievän kognitiivisen heikentymisen diagnosointi) tai ennustetarkkuudesta/ennustetarkkuudesta (esim. dementian ennustaminen potilailla, joilla on lievä kognitiivinen heikentyminen). Tutkimusten valinnassa käytettävien aikavälien esispesifiointi on siksi erittäin tärkeää, jotta voidaan erottaa toisistaan diagnostiset ja ennustavat/ennustavat tutkimukset, erityisesti siksi, että samaa testiä voidaan usein käyttää sekä diagnoosiin että ennusteeseen/ennustamiseen (ks. esimerkiksi ). Tämä tarkoittaa sitä, että kliinistä kysymystä ei voida aina päätellä itse testistä, vaan ainoastaan indeksitestin ja vertailutestin välinen aikaväli osoittaa, onko tutkimus samanaikaista vai ennusteellista tarkkuutta. Lisäksi erottelu voi olla vaikeaa, koska siirtyminen viivästyneestä todentamisesta ennusteeseen/ennusteeseen voi olla sujuvaa.

Jos systemaattisen katsauksen laatijat ovat vakuuttuneita siitä, että testiä voidaan käyttää yksinomaan joko diagnoosiin tai ennusteeseen/ennusteeseen, he voivat käyttää vain algoritmin vastaavaa (diagnoosi, ennuste/ennuste) polkua.

Kohorttityyppinen vai tapaus- eli tapauskontrollityyppinen osallistujien valinta?

Toinen kriteeri erottaa kohorttityyppiset tutkimukset tapaus-kontrollityyppisistä tutkimuksista, ja sitä voidaan soveltaa diagnoositarkkuuden tutkimuksiin samalla tavalla kuin ennuste-/ennustustarkkuuden tutkimuksiin.

Yleisesti kohorttityyppiset tutkimukset ja tapaus-kontrollityyppiset tutkimukset eroavat toisistaan sen mukaan, millä menetelmällä osallistujat valitaan tutkimukseen . Kohorttityyppisissä testien tarkkuutta koskevissa tutkimuksissa osallistujat rekrytoidaan epäilyn perusteella. Epäilyllä tarkoitamme, että on olemassa indikaatio testin suorittamiselle, mukaan lukien oireet, riskitekijät (esim. potilaan ominaisuudet, ympäristö) tai aiempien lääketieteellisten testien tulokset.

Teoreettisesti väestöseulonnassa ihmiset saatetaan valita riippumatta siitä, onko siihen indikaatio vai ei. Käytännössä näin ei kuitenkaan yleensä ole, vaan myös useimmissa väestöpohjaisissa seulontaohjelmissa on ainakin epämääräinen indikaatio testin suorittamiselle (esim. tietty ikäryhmä, sukupuoli). Kohorttimallissa kaikille epäilyttäville osallistujille tehdään indeksi- ja vertailutesti, jonka avulla määritetään heidän tämänhetkinen tilansa (diagnoosi) tai arvioidaan heidän lopputulostilansa (ennuste/ennuste). Diagnostisissa kohorttityyppisissä tutkimuksissa indeksitesti ja vertailutesti tehdään samanaikaisesti. Tämä poikkileikkaussuhde merkitsee sitä, että viite- ja indeksitestin järjestys voi vaihdella, kunhan testit tehdään (lähes) samaan aikaan tai ilman liian suurta viivettä (ks. edellä). Näin ollen viite- ja indeksitesti voidaan suorittaa samanaikaisesti, vertailutesti voidaan suorittaa indeksitestin jälkeen tai indeksitesti voidaan suorittaa vertailutestin jälkeen. Kohorttityyppisissä tutkimuksissa, joissa tutkitaan ennusteellista/ennustavaa tarkkuutta, pitkittäissuhde merkitsee sitä, että indeksitesti tehdään aina ennen vertailutestiä.

Tapaustutkimuksissa osallistujat valitaan terveydentilan/tuloksen perusteella. Niiden osallistujien indeksitestin tuloksia, joilla on positiivinen vertailutestin tulos/tapahtuma (tapaukset), verrataan niiden osallistujien indeksitestin tuloksiin, joilla on negatiivinen vertailutestin tulos/ei tapahtumaa (kontrollit). Altistumista tai interventioita koskevien tapaus-verrokkitutkimusten tapaan tapaukset ja kontrollit voivat olla peräisin samasta lähteestä (esim. rekisteristä) tai eri lähteistä (esim. tapaukset Alzheimer-rekisteristä ja kontrollit hallinnollisesta tietokannasta). Tapaus-verrokkitutkimuksissa diagnoositarkkuutta koskevissa tutkimuksissa yksittäisen osallistujan tasolla suoritettava vertailutesti tehdään aina ennen indeksitestiä, mutta indeksitestin tulosten tarkastelu/tulkinta (esim. retrospektiivinen rekisteritarkastelu) on aina retrospektiivistä. On tärkeää huomata, että tapaus-kontrollitutkimuksissa ei voida laskea ennustearvoja, koska prevalenssi/insidenssi (vertailutestillä positiivisiksi ja negatiivisiksi luokiteltujen osallistujien sarakesumma 2 × 2 -taulukossa) on keinotekoinen tulos, joka johtuu tutkimussuunnitelmasta (esim. 50 % 1:1-tyyppisessä tapaus-kontrolli-sovituksessa).

Ehdotamme, että nimitämme diagnoositarkkuutta koskevat tutkimukset, joissa on potilasvalinta epäilyn perusteella, ”kohorttiin valituiksi poikittaistutkimuksiksi” (cohort selected crosssectional studies) ja tutkimukset, joissa on tapauskohtainen otanta, nimellä ”tapaus- ja kontrollikontrollin perusteella valituiksi poikkitieteellisiksi poikkileikkauksellisiksi poikkileikkauksellisiksi tutkimuksiksi (case-control selected crosssectional studies). Tämä merkintä takaa selkeän eron pitkittäistutkimusasetelmiin ja osoittaa osallistujien valintamenetelmän. Vaikka olemme tietoisia siitä, että kohortti- ja poikkileikkaustutkimus -merkintöjen yhdistäminen vaikuttaa käytännöllisesti katsoen vastakkaiselta, uskomme, että tällainen merkintä on parempi kuin kokonaan uusi merkintä, koska useimmat arvioijat tuntevat nämä tavanomaiset valintamenetelmät.

Taulukossa 2 olevissa kuvissa a ja c on havainnollistettu ”kohorttivalintainen poikkileikkaustutkimus” ja ”tapaus- ja kontrollivalintainen poikkileikkaustutkimus”.

Taulukko 2 Tutkimusasetelmat testin tarkkuuden arvioimiseksi

Ennustetta/ennustetta arvioivan indeksitestin tuloksena syntyviä luokituksia (esim. positiivinen vs. negatiivinen) voidaan pitää erilaisina altistuksina (esim. korkea riski sairastua dementiaan vs. matala riski sairastua dementiaan), ja havainnointijakso on pitkittäinen. Ainoa ero epidemiologian klassiseen kohortti- ja tapauskontrollitutkimukseen on vaikutuksen mittaaminen (testin tarkkuusmittaukset riskisuhteiden sijasta). Siksi ehdotamme, että prognostiset/ennustustarkkuustutkimukset nimetään samalla tavalla eli ”kohorttitutkimuksiksi” ja ”tapaus-kontrollitutkimuksiksi”.

Taulukon 2 kuvissa b ja d havainnollistetaan ”kohorttitutkimuksen” ja ”tapaus-kontrollitutkimuksen” rakennetta.

Joko testitarkkuutta koskevat tutkimukset voivat perustua nimenomaisesti tutkimusta varten kerättäviin tietoihin (eli tutkimustietokantaan) tai ennestään olemassa oleviin tietolähteisiin (esimerkiksi rutiininomaisesti kerättäviin tietoihin). Usein käytetään luokitusta retrospektiivinen/prospektiivinen erottamaan, kerättiinkö tiedot nimenomaan tutkimusta varten vai käytettiinkö jo olemassa olevaa tietolähdettä. Suosittelemme tämän luokittelun välttämistä kahdesta syystä. Ensinnäkin tutkimuksissa on usein sekä prospektiivisia (esim. analyysisuunnitelma) että retrospektiivisiä näkökohtia (esim. tiedonkeruu). Toiseksi erityisesti diagnostisen tarkkuuden tutkimuksissa tämä johtaisi hankaliin luokituksiin (esim. retrospektiivinen poikkileikkaustutkimus). Sen sijaan tutkimuksessa käytetty tietolähde olisi kuvattava selkeästi systemaattisessa katsauksessa.

Kuvailevia esimerkkejä

Taulukossa 3 esitetään havainnollistava esimerkki kustakin testitarkkuuden tutkimustyypistä. Esimerkkitutkimuksessa 1 kaikki vähintään 50-vuotiaat munuaisensiirron saaneet saivat ulosteen immunokemiallisen testin (indeksitesti) paksu- ja peräsuolen syövän seulontaa varten. Ulosteen immunokemiallisen testin jälkeen potilaat ohjattiin kolonoskopiaan (vertailutesti). Tässä tutkimuksessa näytteenotto perustui epäilyyn (munuaisensiirron saaneet). Indeksitesti ja vertailutesti tehtiin samaan aikaan (tauti ei todennäköisesti ole edennyt). Näin ollen tämä tutkimus on kohorttiotantaan perustuva poikkileikkaustutkimus diagnostisesta tarkkuudesta (ks. taulukko 2 kuva a).

Taulukko 3 Esimerkkejä erilaisista tarkkuutta koskevista tutkimustyypeistä

Toisen esimerkin mukaan potilaat, joilla oli kliininen Alzheimer-diagnoosi (vertailutesti) (tapaukset) ja jotka kävivät muistipoliklinikalle, sovitettiin yhteen osallistujien kanssa, joilla ei ollut Alzheimer-tautia, ja nämä osallistujat oli rekrytoitu sukulaisista, jotka olivat saattaneet potilasta muisti-klinikalle (potilaiden mukana kulkevia sukulaisia) (potilaat, joilla ei ollut tautia, kontrollit). Sekä potilaat että sukulaiset saivat kognitiivisen testin (indeksitesti) muistipoliklinikkakäynnin aikana. Osallistujien otanta perustui sairauteen toisessa ryhmässä ja sairauden puuttumiseen toisessa ryhmässä. Vaikka vertailutesti suoritettiin eri ajankohtana kuin indeksitesti, sitä voidaan pitää samana ajankohtana, koska sairaus ei voinut olla ohi, eli se on edelleen ajankohtainen. Näin ollen tämä tutkimus on tapaus-verrokkitutkimus, joka on poikkileikkausdiagnostiikan tarkkuutta koskeva poikkileikkaustutkimus (ks. taulukko 2 kuva c).

Kolmannessa esimerkkitapauksessa tutkitaan kaikkia 50-90-vuotiaita potilaita (epäily) eräässä maksajapalveluja antavassa terveydenhuolto-organisaatiossa. Tutkimuksessa potilaan ominaisuudet ja muut tekijät yhdistettiin muodollisesti ennustemalliin. Ennustemalli laskee pistemäärän, joka on dikotomisoitu käyttämällä eri raja-arvoja (indeksitesti). Kullekin osallistujalle ennustettiin riski sairastua murtumaan 5 vuoden kuluessa (tuleva tapahtuma). Näytteenotto perustui epäilyyn, ja tuleva tulos ennustettiin. Vaikka julkaisusta ei käy täysin ilmi, voidaan olettaa, että suurinta osaa potilaista ei hoidettu osteoporoosin vuoksi. Näin ollen kyseessä on kohorttitutkimus, jossa arvioidaan ennustetarkkuutta (ks. taulukko 2 kuva b).

Viimeisessä esimerkkitutkimuksessa oli mukana vähintään 40-vuotiaita miehiä (epäily), joilla oli verinäytteenottotulokset suuremmasta väestöpohjaisesta kohorttitutkimuksesta. Potilaat, joilla oli eturauhassyöpä (lopputulostapahtuma), otettiin näytteeksi ja verrattiin potilaisiin, joilla ei ollut eturauhassyöpää (ei lopputulostapahtumaa, kontrollit). Aikaisemman verinäytteenoton eturauhaspesifisen antigeenin tasot (indeksitesti) luokiteltiin ja niitä verrattiin keskenään. Osallistujat olivat hoitamattomia, näytteenotto perustui lopputulokseen ja tuleva lopputulos on ennustettu. Näin ollen tutkimus on (sisäkkäinen) tapaus-verrokkitutkimus ennustetarkkuuden arvioimiseksi (ks. taulukko 2 kuva d).

Limitations

Algoritmimme kattaa vain testien tarkkuutta koskevien tutkimusten perusrakennepiirteet. On olemassa muitakin kriteerejä, jotka ovat tärkeitä harhaisuusriskin arvioinnin ja näyttöön kohdistuvan luottamuksen arvioinnin kannalta. Erityisesti otantamenetelmä on tässä suhteessa tärkeä. Kohorttityyppisten tutkimusten, joissa otos on peräkkäinen tai satunnainen (esim. satunnaistetun kontrolloidun kokeilun yksi haara), katsotaan antavan vähiten vääristynyttä tietoa testien tarkkuudesta. Lisäksi tutkimuspopulaation olisi oltava kohderyhmää edustava, jotta voidaan saada ulkoisesti päteviä tarkkuusmittauksia.