An algorithm for the classification of study designs to assess diagnostic, prognostic and predictive test accuracy in systematic reviews
Wyniki badań medycznych są głównym źródłem informacji przy podejmowaniu decyzji klinicznych. Dokładność testu to zdolność testu do rozróżniania różnych grup pacjentów (np. zdrowych i chorych). Pierwszym krokiem w ocenie wartości testu medycznego przed przeprowadzeniem porównawczych badań wpływu (np. randomizowanych badań kontrolowanych) na różne testy jest ocena dokładności testu. Ponadto, jeśli badania wpływu są nieobecne, dowody na dokładność testu mogą być wykorzystane do oszacowania wpływu na ważne dla pacjenta wyniki poprzez powiązanie dowodów na różne ścieżki opieki (np. brak leczenia vs. leczenie) wynikające z różnych klasyfikacji opartych na testach z miarami dokładności testu (np. fałszywe negatywne wyniki testu).
Wykorzystanie testu, nawet tego samego testu w opiece zdrowotnej może być wielorakie w odniesieniu do pytania klinicznego (np. diagnoza stanu zdrowia, przewidywanie sukcesu terapii) i celu (np. badania przesiewowe lub obserwacja, monitorowanie leczenia lub inscenizacja). Ponadto, testy medyczne zazwyczaj nie są używane samodzielnie, ale w różnych konstelacjach z innymi testami, włączając w to triage przed innym testem, dodanie do innego testu i równoległe testowanie z innym testem.
Oprócz wielorakich obszarów zastosowań, badania dokładności testów są często niejasno oznaczone w literaturze medycznej w odniesieniu do rozróżnienia między diagnozą, prognozą i przewidywaniem (na przykład, zobacz ), oraz w odniesieniu do podstawowego projektu badania epidemiologicznego (na przykład, zobacz ). Te aspekty komplikują prawidłową klasyfikację projektu badania.
Przeglądy systematyczne dotyczące dokładności testu (np. czułości i swoistości) podsumowują miary dokładności testu z kilku badań. Spójna i jasna definicja projektów badań jest krytyczna dla jakości w kilku zadaniach przeglądu systematycznego. Obejmuje to wybór badań, wybór narzędzia do oceny ryzyka błędu systematycznego, decyzję, które badania powinny być połączone w tej samej metaanalizie i ocenę pewności dowodów.
Wstępne rozważania
Algorytm ten dotyczy tylko badań porównujących wyniki testu indeksowego (testu, który ma być oceniony) z wynikami testu referencyjnego (testu, którego wyniki są uważane za prawidłowe / złoty standard). Testy będące przedmiotem zainteresowania muszą umożliwiać klasyfikację binarną, albo poprzez zastosowanie punktu odcięcia dla miary kategorycznej lub ciągłej (np. wysokie vs. niskie ciśnienie krwi, wynik modelu prognostycznego), albo mieć charakter binarny. Algorytm może być użyty dla dowolnego testu stosowanego w służbie zdrowia. Badanie to może być pojedynczym badaniem (np. obrazowym) lub predefiniowaną kombinacją (powiązanie AND lub OR) badań (np. obrazowych i laboratoryjnych) lub czynników (np. objawów, charakterystyki pacjenta), które są formalnie połączone w modelu diagnostycznym lub prognostycznym . Przy stosowaniu algorytmu recenzenci powinni mieć świadomość, że badanie nie może być badaniem w wąskim rozumieniu (np. badania laboratoryjne, urządzenia diagnostyczne). Może to być również obserwacja (np. zdrowego), procedura medyczna (np. ogólna kontrola stanu zdrowia) lub ocena kliniczna (np. oględziny zwłok).
Algorytm nie może być stosowany w badaniach nad kalibracją testów oraz w badaniach nad rzetelnością testów (np. badania test-retest). Algorytm nie może być również wykorzystywany do klasyfikacji badań porównawczych i badań wpływu na testy. Są to wszystkie badania, które porównują dokładność co najmniej dwóch testów przy użyciu tego samego standardu odniesienia lub badania, które porównują wpływ różnych testów na wyniki zdrowotne (np. randomizowane badanie kontrolowane, w którym porównuje się dwie różne strategie badań przesiewowych pod względem wpływu na śmiertelność). Ważne jest jednak, aby wziąć pod uwagę, że w badaniach porównawczych nad testami pojedyncze ramiona badania, w których wykonywany jest test, mogą być uważane za badania dokładności testu (np. ramię randomizowanej kontrolowanej próby, w której stosowany jest test przesiewowy) i dlatego mogą być (potencjalnie) istotne dla przeglądów systematycznych dotyczących dokładności testu. Badania, w których obliczane są względne miary efektu, ale nie można obliczyć miary dokładności testu (np. badania czynników prognostycznych), również nie są brane pod uwagę w niniejszym dokumencie, ponieważ można je zaklasyfikować jako badania dotyczące ekspozycji (np. badania case-control). W przypadku badań dotyczących ekspozycji, jak również badań porównawczych wpływu, klasyfikacje zostały opisane w innym miejscu
Algorytm klasyfikacji
Algorytm klasyfikacji przedstawiono na rycinie 1. Projekty badań, które można sklasyfikować za pomocą tego algorytmu, przedstawiono w tabeli 2. W kolejnych punktach wyjaśniono zastosowanie algorytmu. Dla ilustracji czytelnik może sobie wyobrazić przegląd systematyczny dotyczący trafności krótkich testów poznawczych dla osób starszych, dla których podajemy przykłady w całym opisie algorytmu.
Czy to jest badanie trafności testu?
Nie zawsze jest bezpośrednio oczywiste, czy rozważane badanie jest rzeczywiście badaniem trafności testu, ponieważ badania mogą nie raportować miar trafności, a jedynie dostarczać dane umożliwiające obliczenie miar trafności (np. czułość testu poznawczego dla diagnozy demencji). Innymi słowy, autorzy przeglądów systematycznych muszą sprawdzić, czy możliwe jest obliczenie tabeli krzyżowej 2 × 2 (zob. Tabela 1). Dlatego pierwszym kryterium algorytmu jest pytanie, czy badanie jest badaniem trafności testu.
Diagnostyczna, prognostyczna lub predykcyjna trafność testu (przekrojowa lub podłużna)?
Testy w opiece zdrowotnej mogą być wykorzystywane do diagnozy, prognozy i/lub predykcji. Diagnoza odnosi się do „prawdopodobieństwa, że określony wynik lub choroba jest obecna (lub nieobecna) w jednostce, w tym punkcie w czasie”. Oznacza to, że w badaniach dokładności diagnostycznej, informacje z testu są wykorzystywane do klasyfikacji aktualnego stanu zdrowia (np. zaburzenia poznawcze vs. zdrowi). W przeciwieństwie do tego, „prognoza odnosi się do ryzyka (jakichkolwiek) przyszłych wyników zdrowotnych u osób z daną chorobą lub stanem zdrowia” (np. wysokie ryzyko vs. niskie ryzyko śmierci w ciągu 1 roku). W przypadku testów, oznacza to badania dokładności prognostycznej i predykcyjnej, które klasyfikują ryzyko rozwoju wyniku w przyszłości, które nie występuje w momencie zastosowania testu. Rokowanie może być dalej podzielone na badania prognostyczne i predykcyjne. Prognoza uwzględnia naturalny przebieg chorób i w ten sposób odpowiada na pytanie, kto potrzebuje leczenia (np. potrzeba leczenia istnieje tylko wtedy, gdy istnieje ryzyko rozwoju demencji). Prognozowanie ma na celu przewidywanie wyników u leczonych pacjentów, a zatem odpowiada na pytanie, kto i jak powinien być leczony (np. trening poznawczy u osób z łagodnymi zaburzeniami poznawczymi jest konieczny tylko wtedy, gdy istnieje szansa na poprawę). W dalszej części opracowania będziemy rozpatrywać testy prognostyczne i predykcyjne łącznie, ponieważ oba mają perspektywę podłużną, od teraźniejszości do przyszłości, a zatem ich trafność można oceniać za pomocą tych samych projektów badań. Niemniej jednak autorzy przeglądów systematycznych powinni dokładnie rozważyć, czy oceniane badanie uwzględnia naturalny przebieg choroby (prognoza), czy też uwzględnia leczonych pacjentów (predykcja).
Drugim kryterium algorytmu klasyfikacji jest pytanie, czy celem analizowanego badania jest ocena dokładności diagnostycznej, czy też dokładności prognostycznej/preddykcyjnej testu. Ponieważ główną różnicą między nimi jest składowa czasowa (stan obecny vs. przyszły), w drugim kryterium klasyfikacji uwzględnia się odstęp czasowy między badaniem indeksowym a referencyjnym. Diagnoza jest klasyfikacją aktualnego stanu. Wszystkie informacje na temat indywidualnego uczestnika odnoszą się do tego samego punktu czasowego (np. test poznawczy wskazuje, że pacjent ma obecnie demencję). Oznacza to, że wszystkie badania trafności diagnostycznej mają charakter przekrojowy. Ponieważ diagnoza dostarcza informacji na temat aktualnego stanu, test referencyjny i test indeksowy powinny być wykonane w tym samym punkcie czasowym. Przy stosowaniu tego kryterium ważne jest, aby odnosić je do punktu czasowego zbierania informacji o teście indeksowym i referencyjnym dla indywidualnego uczestnika badania, a nie do punktu czasowego zbierania danych do badania (np. przegląd karty w celu weryfikacji diagnozy demencji), aby uniknąć pomyłek. Na przykład, pacjent może otrzymać test indeksowy (np. krótki test poznawczy) w podstawowej opiece zdrowotnej, a test referencyjny (np. kompleksową ocenę poznawczą) podczas pobytu w szpitalu kilka miesięcy później. Informacje o wynikach obu testów są zbierane z rutynowo gromadzonych danych opieki zdrowotnej w tym samym punkcie czasowym (np. rejestr pacjentów geriatrycznych). Chociaż dane do badania są zbierane w tym samym punkcie czasowym z rejestru, badanie nie jest przekrojowe, ponieważ test indeksowy i test referencyjny nie są wykonywane w tym samym czasie na poziomie indywidualnego uczestnika. W praktyce punkty czasowe, w których wykonywane są testy, zwykle nie są dokładnie takie same. Tak więc, ten sam punkt czasowy może oznaczać prawie ten sam punkt czasowy (np. krótki test poznawczy i kompleksowa ocena poznawcza podczas tej samej wizyty) lub, że jeden test jest wykonywany w pobliżu drugiego (np. krótki test poznawczy i kompleksowa ocena poznawcza podczas tego samego pobytu w szpitalu). Należy ocenić, czy odstęp czasowy w ocenianym badaniu był odpowiedni, biorąc pod uwagę prawdopodobieństwo, że stan pacjenta (np. brak zaburzeń poznawczych) nie zmienił się pomiędzy badaniem indeksowym a referencyjnym . W związku z tym dopuszczalne opóźnienie zależy od stanu chorobowego i jest większe w stanach wolno postępujących niż w stanach szybko postępujących. Dla klasyfikacji projektu badania oznacza to, że jeśli można uzasadnić, że jest nieprawdopodobne, że stan uległ zmianie (np. rozpoznanie demencji typu Alzheimera), badania z opóźnieniem między testem indeksowym a referencyjnym mogą być również klasyfikowane jako przekrojowe. Ponieważ nie można wykluczyć, że status pacjenta zmienił się między dwoma testami, istnieje ryzyko błędu klasyfikacji w badaniach dokładności diagnostycznej, ponieważ stosunek grup pacjentów (np. proporcja sklasyfikowana jako zaburzona lub niezaburzona poznawczo) wynikająca z klasyfikacji testu mogła się zmienić w międzyczasie . Sugerujemy, aby w przeglądach systematycznych dotyczących dokładności testów diagnostycznych wstępnie określić dwa odstępy czasowe pomiędzy testem indeksowym a referencyjnym. Jeden dla decyzji o włączeniu do przeglądu systematycznego i drugie kryterium (zwykle mniejszy przedział czasowy) do oceny niskiego/umiarkowanego ryzyka błędu opóźnionej weryfikacji. Określenie progów wymagałoby zwykle wiedzy metodologa i klinicysty.
Prognoza/przewidywanie jest klasyfikacją przyszłego stanu. W badaniach nad prognozą/przewidywaniem, test wskaźnikowy jest używany do klasyfikowania uczestników zgodnie z ich ryzykiem rozwoju pewnego wyniku (np. progresji łagodnych zaburzeń poznawczych do demencji) lub odpowiedzi na terapię (np. odpowiedzi na trening poznawczy). Tutaj, test referencyjny jest używany do oceny statusu wyniku. Informacje o wynikach testu wskaźnikowego i referencyjnego dla indywidualnego uczestnika odnoszą się do różnych punktów czasowych. Oznacza to, że badania nad prognozą/przewidywaniem są zawsze podłużne, ponieważ istnieją powtarzające się obserwacje, a mianowicie wynik testu indeksowego, a później wyniki testu referencyjnego dla każdego uczestnika. W przeciwieństwie do badań dokładności diagnostycznej, odstęp czasowy pomiędzy badaniem indeksowym a badaniem referencyjnym nie powinien być zbyt krótki, ale „wystarczająco” długi. Odstęp czasowy powinien być wybrany w taki sposób, że jeśli interesujący nas wynik nie wystąpił (np. negatywny wynik testu na demencję), jest mało prawdopodobne, że wystąpi on wkrótce potem (np. łagodne zaburzenia poznawcze prawdopodobnie nie przejdą w demencję w ciągu najbliższych miesięcy). Oprócz okresu całego życia, często istotne klinicznie są informacje dotyczące pewnych z góry określonych przedziałów czasowych (np. rozwój demencji w ciągu najbliższych 5 lat). Jednak w praktyce badawczej wybór przedziału czasowego może być podyktowany raczej dostępnością danych (np. długość obserwacji) niż znaczeniem klinicznym. Poza oceną znaczenia klinicznego, przedział czasowy w rozważanym badaniu ma decydujące znaczenie dla oceny ryzyka błędu systematycznego. Niewystarczająca długość obserwacji może spowodować błąd czasu obserwacji w badaniach z niezaślepionymi wynikami testu indeksowego, ponieważ u uczestników z dodatnim testem indeksowym (np. wskazującym na zaburzenia funkcji poznawczych) podejrzewa się wystąpienie zdarzenia (np. rozwój demencji). Dlatego uczestnicy z dodatnim testem wskaźnikowym często mają większą szansę na dokładniejsze monitorowanie, a w konsekwencji również większą szansę na wcześniejsze otrzymanie testu referencyjnego (np. poprzez intensywniejsze monitorowanie funkcji poznawczych) niż uczestnicy z ujemnym wynikiem testu wskaźnikowego. Ponadto, obserwacja mniejszej liczby zdarzeń w jednej grupie może być pozorna, jeśli wynik testu jest związany tylko z opóźnieniem zdarzeń, ale w rzeczywistości nie obniża wskaźnika zdarzeń biorąc pod uwagę okres całego życia. Dlatego, podobnie jak w przypadku diagnostyki, sugerujemy, aby autorzy przeglądów systematycznych wstępnie określili dwa przedziały czasowe. Jeden do selekcji badań, które powinny być wybrane w zależności od interesującego ich horyzontu czasowego (np. wczesna lub późna progresja) i jeden do oceny ryzyka błędu systematycznego badań. Ważne jest, aby zauważyć, że według naszej wiedzy dla badań dotyczących dokładności prognostycznej nie istnieje żadne narzędzie do oceny jakości metodologicznej.
Autorzy przeglądów systematycznych będą regularnie zainteresowani dokładnością diagnostyczną (np. rozpoznanie łagodnych zaburzeń poznawczych) lub dokładnością prognostyczną/preddykcyjną (np. przewidywanie demencji u pacjentów z łagodnymi zaburzeniami poznawczymi). Wstępna specyfikacja przedziałów czasowych przy wyborze badań jest zatem bardzo ważna dla odróżnienia badań diagnostycznych od prognostycznych/preddykcyjnych, w szczególności dlatego, że ten sam test może być często stosowany zarówno do diagnozy, jak i do prognozy/przewidywania (patrz na przykład ). Oznacza to, że pytanie kliniczne nie zawsze może być wywnioskowane z samego testu, ale tylko przedział czasu między testem indeksowym a testem referencyjnym wskazuje, czy badanie jest równoczesne czy predykcyjne. Ponadto rozróżnienie może być trudne, ponieważ przejście od opóźnionej weryfikacji do prognozy/przewidywania może być płynne.
Jeśli autorzy przeglądów systematycznych są przekonani, że test może być stosowany wyłącznie do diagnozy lub prognozy/przewidywania, mogą stosować tylko odpowiednią (diagnoza, prognoza/przewidywanie) ścieżkę algorytmu.
Wybór uczestników typu kohortowego czy typu case-control?
Drugie kryterium odróżnia badania typu kohortowego od badań typu case-control i może być stosowane do badań trafności diagnostycznej w podobny sposób jak do badań trafności prognostycznej/preddykcyjnej.
Ogólnie, badania typu kohortowego i badania typu case-control odróżnia metoda doboru uczestników do badania . W badaniach dokładności testów typu kohortowego, uczestnicy są rekrutowani na podstawie podejrzeń. Przez podejrzenie rozumiemy istnienie wskazań do wykonania badania, w tym oznak i objawów, obecność czynników ryzyka (np. charakterystyka pacjenta, środowisko) lub wyniki wcześniejszych badań medycznych.
Teoretycznie, w populacyjnych badaniach przesiewowych, osoby mogą być dobierane niezależnie od tego, czy istnieją do tego wskazania, czy nie. W praktyce jednak nie jest to regułą, ale też w większości populacyjnych programów przesiewowych istnieją przynajmniej niejasne wskazania do wykonania badania (np. określona grupa wiekowa, płeć). W projektach kohortowych wszyscy podejrzani uczestnicy otrzymują test indeksowy i test referencyjny w celu określenia ich aktualnego statusu (diagnoza) lub oceny ich statusu wyniku (prognoza/przewidywanie). W badaniach typu kohorty diagnostycznej, badanie indeksowe i badanie referencyjne są wykonywane w tym samym czasie. Ten przekrojowy związek implikuje, że kolejność badania referencyjnego i badania indeksowego może się różnić, o ile badania są wykonywane w (prawie) tym samym czasie lub bez zbytniego opóźnienia (patrz wyżej). Tak więc badanie referencyjne i indeksowe może być wykonane jednocześnie, badanie referencyjne może być wykonane po badaniu indeksowym lub badanie indeksowe może być wykonane po badaniu referencyjnym. W przypadku badań typu kohortowego dotyczących dokładności prognostycznej/preddykcyjnej, związek podłużny implikuje, że badanie indeksowe jest zawsze wykonywane przed badaniem referencyjnym.
W projektach typu case-control, wybór uczestników jest oparty na stanie zdrowia/wyniku. Wyniki testu indeksowego uczestników z dodatnim wynikiem testu referencyjnego/zdarzeniem (przypadki) są porównywane z wynikami testu indeksowego uczestników z ujemnym wynikiem testu referencyjnego/bez zdarzenia (kontrole). Podobnie jak w przypadku badań case-control dotyczących narażenia lub interwencji, przypadki i kontrole mogą pochodzić z tego samego źródła (np. rejestru) lub z różnych źródeł (np. przypadki z rejestru Alzheimera, a kontrole z administracyjnej bazy danych). W badaniach dokładności diagnostycznej typu case-control badanie referencyjne na poziomie indywidualnego uczestnika jest zawsze wykonywane przed badaniem indeksowym, ale pogląd/interpretacja (np. retrospektywny przegląd dokumentacji) na wyniki badania indeksowego jest zawsze retrospektywna. Ważne jest, aby zauważyć, że w projektach typu case-control nie można obliczyć wartości predykcyjnych, ponieważ częstość występowania/zachorowalność (suma kolumn w tabeli 2 × 2 uczestników zaklasyfikowanych jako pozytywni i negatywni z testem referencyjnym) jest sztucznym wynikiem projektu (np. 50% w dopasowaniu 1:1 case-control).
Sugerujemy oznaczanie badań dokładności diagnostycznej z wyborem pacjenta opartym na podejrzeniu „kohortowe wybrane badania przekrojowe” i badania z próbkowaniem opartym na przypadku „case-control wybrane badania przekrojowe”. Takie oznakowanie zapewnia wyraźne rozróżnienie od projektów badań podłużnych i wskazuje metodę doboru uczestników. Chociaż zdajemy sobie sprawę, że połączenie oznaczeń kohorta i badanie przekrojowe praktycznie wydaje się sprzeczne, uważamy, że takie oznaczenie jest lepsze niż zupełnie nowe, ponieważ większość recenzentów zna te standardowe metody selekcji.
Rysunki a i c w Tabeli 2 ilustrują projekt odpowiednio „badania przekrojowego z selekcją kohorty” i „badania przekrojowego z selekcją przypadku”.
Klasyfikacje (np. pozytywna versus negatywna) wynikające z testu indeksowego do oceny rokowania/przewidywania mogą być traktowane jako różne ekspozycje (np. wysokie ryzyko rozwoju demencji vs. niskie ryzyko rozwoju demencji), a okres obserwacji jest podłużny. Jedyną różnicą w stosunku do klasycznych badań kohortowych i case-control w epidemiologii jest miara efektu (miary dokładności testu zamiast współczynników ryzyka). Dlatego sugerujemy oznaczanie badań prognostycznych/preddykcyjnych dokładności w ten sam sposób, a mianowicie „badania kohortowe” i „badania case-control”.
Rysunek b i d w Tabeli 2 ilustrują projekt „badania kohortowego” i „badania case-control”, odpowiednio.
Badania dokładności testu mogą być oparte na danych specjalnie zebranych do badania (tj. baza danych badania) lub na już istniejących źródłach danych (np. dane zbierane rutynowo). Często stosuje się klasyfikację retrospektywne/prospektywne, aby rozróżnić, czy dane zostały zebrane specjalnie na potrzeby badania, czy też wykorzystano już istniejące źródło danych. Zalecamy unikanie tej klasyfikacji z dwóch powodów. Po pierwsze, często badania mają zarówno aspekty prospektywne (np. plan analizy), jak i retrospektywne (np. zbieranie danych). Po drugie, szczególnie w przypadku badań dokładności diagnostycznej, prowadziłoby to do kłopotliwych klasyfikacji (np. retrospektywne badanie przekrojowe). Zamiast tego w przeglądzie systematycznym należy jasno opisać źródło danych wykorzystane w badaniu.
Przykłady ilustrujące
Tabela 3 pokazuje przykład ilustrujący dla każdego typu badania dokładności testu. W przykładowym badaniu 1 wszyscy biorcy przeszczepu nerki w wieku co najmniej 50 lat otrzymali test immunochemiczny kału (test indeksowy) do badań przesiewowych w kierunku raka jelita grubego. Po wykonaniu testu immunochemicznego kału pacjenci byli kierowani na kolonoskopię (badanie referencyjne). W tym badaniu dobór próby opierał się na podejrzeniu (biorcy przeszczepu nerki). Badanie indeksowe i badanie referencyjne wykonano w tym samym czasie (choroba prawdopodobnie nie uległa progresji). W związku z tym badanie to jest kohortowym badaniem przekrojowym dotyczącym dokładności diagnostycznej (zob. tabela 2 rysunek a).
W drugim przykładzie pacjenci z rozpoznaniem klinicznym (test referencyjny) choroby Alzheimera (przypadki) uczęszczający do kliniki pamięci zostali dopasowani do uczestników bez choroby Alzheimera, którzy zostali zrekrutowani spośród krewnych towarzyszących pacjentom w klinice pamięci (bez choroby, kontrole). Zarówno pacjenci, jak i krewni otrzymali test poznawczy (test indeksowy) podczas wizyty w klinice pamięci. Dobór uczestników opierał się na chorobie w jednej grupie i braku choroby w drugiej. Pomimo, że test referencyjny został wykonany w innym czasie niż test indeksowy, można go uznać za ten sam punkt czasowy, ponieważ choroba nie mogła zostać rozwiązana, tzn. jest nadal aktualna. W związku z tym badanie to jest przekrojowym badaniem dokładności diagnostycznej typu case-control (patrz tabela 2 rysunek c).
Trzeci przykład bada wszystkich pacjentów w wieku od 50 do 90 lat (podejrzenie) w organizacji zdrowotnej będącej płatnikiem. W badaniu tym charakterystyka pacjenta i inne czynniki zostały formalnie połączone w modelu prognostycznym. Model prognostyczny oblicza wynik, który jest dychotomizowany przy użyciu różnych punktów odcięcia (badanie wskaźnikowe). Dla każdego uczestnika przewidywano ryzyko wystąpienia złamań w ciągu 5 lat (zdarzenie przyszłe). Dobór próby opierał się na podejrzeniu i przewidywaniu przyszłego wyniku. Chociaż nie wynika to w pełni jasno z publikacji, można założyć, że większość pacjentów nie była leczona z powodu osteoporozy. W związku z tym badanie to jest badaniem kohortowym mającym na celu ocenę dokładności prognostycznej (patrz tabela 2 rycina b).
Ostatnie przykładowe badanie obejmowało mężczyzn w wieku co najmniej 40 lat (podejrzenie), którzy mieli wyniki pobrania krwi z większego populacyjnego badania kohortowego. Od pacjentów z rakiem gruczołu krokowego (zdarzenie wynikowe) pobrano próbki i dopasowano do pacjentów bez raka gruczołu krokowego (bez zdarzenia wynikowego, kontrole). Poziomy antygenu specyficznego dla prostaty (test indeksowy) z poprzedniego pobrania krwi zostały skategoryzowane i porównane. Uczestnicy nie byli leczeni, pobieranie próbek było oparte na wyniku, a przyszły wynik jest przewidywany. W konsekwencji, badanie jest (zagnieżdżonym) badaniem typu case-control w celu oceny dokładności prognostycznej (patrz Tabela 2 rysunek d).
Ograniczenia
Nasz algorytm obejmuje tylko podstawowe cechy projektowe badań dokładności testu. Istnieją dalsze kryteria, które są ważne dla oceny ryzyka błędu systematycznego i dla oceny zaufania do zbioru dowodów. W szczególności, metoda próbkowania jest ważna w tym względzie. Uważa się, że badania typu kohortowego z kolejną lub losową próbą (np. jedno ramię randomizowanej kontrolowanej ścieżki) dostarczają najmniej tendencyjnych informacji na temat dokładności testu. Ponadto populacja badana powinna być reprezentatywna dla populacji docelowej, tak aby można było uzyskać zewnętrznie ważne pomiary dokładności .