Um algoritmo para a classificação dos desenhos de estudo para avaliar a precisão diagnóstica, prognóstica e preditiva dos testes em revisões sistemáticas

Set 8, 2021
admin

Resultados de testes médicos são a principal fonte de informação para a tomada de decisões clínicas. A precisão dos testes é a capacidade de um teste de discriminar entre diferentes grupos de pacientes (por exemplo, saudáveis e doentes). O primeiro passo para avaliar o valor de um teste médico antes de realizar estudos comparativos de impacto (por exemplo, testes controlados aleatórios) em diferentes testes é a avaliação da precisão do teste. Além disso, se os estudos de impacto estiverem ausentes, a evidência sobre a precisão do teste pode ser usada para estimar efeitos sobre resultados importantes do paciente, ligando a evidência das diferentes vias de tratamento (por exemplo, sem tratamento vs. tratamento) resultantes das diferentes classificações baseadas no teste às medidas de precisão do teste (por exemploO uso do teste, mesmo o mesmo teste nos cuidados de saúde, pode ser múltiplo em relação à questão clínica (por exemplo, diagnóstico de um estado de saúde, previsão de sucesso da terapia) e propósito (por exemplo, triagem ou vigilância, monitoramento ou estadiamento do tratamento). Além disso, os testes médicos geralmente não são usados isoladamente, mas em constelações diferentes com outros testes, incluindo triagem antes de outro teste, adição a outro teste e testes paralelos com outro teste.

Além das múltiplas áreas de aplicação, os estudos de precisão dos testes muitas vezes não são claramente rotulados na literatura médica quanto à diferenciação entre diagnóstico, prognóstico e previsão (por exemplo, ver ), e quanto ao desenho do estudo epidemiológico subjacente (por exemplo, ver ). Esses aspectos complicam a classificação correta do desenho do estudo.

Revisões sistemáticas sobre a precisão dos testes (por exemplo, sobre sensibilidade e especificidade) resumem as medidas de precisão dos testes de vários estudos. Uma definição consistente e clara dos desenhos de estudo é fundamental para a qualidade em várias tarefas da revisão sistemática. Isso inclui a seleção dos estudos, a escolha da ferramenta para avaliação do risco de viés, a decisão de quais estudos devem ser reunidos na mesma meta-análise e a avaliação da certeza do corpo de evidências .

A seguir, propomos um algoritmo para a classificação dos estudos de acurácia de testes em revisões sistemáticas.

Considerações preliminares

Este algoritmo só se aplica a estudos que comparem os resultados de um teste de índice (o teste a ser avaliado) com os resultados de um teste de referência (o teste cujos resultados são considerados corretos/padrão-ouro). Os testes de interesse devem permitir uma classificação binária, seja usando um recorte para uma medida categórica ou contínua (por exemplo, pressão arterial alta vs. baixa, pontuação de um modelo prognóstico) ou ser de natureza binária. O algoritmo pode ser usado para qualquer teste usado em cuidados de saúde. Este teste pode ser um único teste (por exemplo, imagem) ou uma combinação predefinida (AND ou OR link) de testes (por exemplo, imagem e laboratório) ou fatores (por exemplo, sintomas, características do paciente) que são formalmente combinados em um modelo de diagnóstico ou prognóstico. Quando os revisores aplicam o algoritmo, eles devem estar cientes de que o teste não deve ser um teste em sentido restrito (por exemplo, testes laboratoriais, dispositivos diagnósticos). Também pode ser uma observação (por exemplo, saudável), um procedimento médico (por exemplo, exame de saúde geral) ou uma avaliação clínica (por exemplo, inspeção do cadáver).

O algoritmo não pode ser usado para estudos sobre calibração de testes e estudos sobre confiabilidade de testes (por exemplo, estudos de teste-reteste). O algoritmo também não pode ser usado para classificar estudos comparativos e de impacto em testes. Estes são todos os estudos que comparam a precisão de pelo menos a testes usando o mesmo padrão de referência ou estudos que comparam o impacto de diferentes testes sobre os resultados de saúde (por exemplo, um ensaio controlado aleatorizado que compara duas estratégias de rastreamento diferentes em relação ao impacto sobre a mortalidade). Contudo, é importante considerar que em estudos comparativos sobre testes, um único braço do estudo no qual um teste é realizado pode ser considerado como estudos de precisão de teste (por exemplo, o braço de um ensaio controlado aleatorizado no qual um teste de rastreio é usado) e, portanto, pode ser (potencialmente) relevante para as revisões sistemáticas sobre a precisão do teste. Estudos nos quais uma medida de efeito relativo é calculada, mas nenhuma medida de precisão do teste pode ser calculada (por exemplo, estudos de fatores prognósticos) também não são considerados neste trabalho porque podem ser classificados como estudos sobre exposições (por exemplo, estudos de caso-controle) . Para estes estudos sobre exposições, bem como estudos comparativos de impacto, as classificações foram descritas em outra parte .

O algoritmo de classificação

O algoritmo de classificação é apresentado na Fig. 1. Os desenhos de estudo que podem ser classificados com o algoritmo são mostrados na Tabela 2. Nos parágrafos seguintes, a aplicação do algoritmo é explicada. Para ilustração, o leitor pode imaginar uma revisão sistemática da exatidão do teste de precisão do teste cognitivo breve para pessoas idosas para as quais fornecemos exemplos ao longo da descrição do algoritmo.

Fig. 1

Algoritmo para classificação da exatidão do teste de estudos

É um estudo de exatidão de teste?

Nem sempre é directamente óbvio se o estudo em consideração é de facto um estudo de precisão de teste porque os estudos podem não relatar medidas de precisão mas apenas fornecer dados que permitam calcular medidas de precisão (por exemplo, sensibilidade do teste cognitivo para o diagnóstico de demência). Em outras palavras, os autores da revisão sistemática devem verificar se é possível calcular uma tabulação cruzada de 2 × 2 (ver Tabela 1). Portanto, o primeiro critério do algoritmo é a questão, se o estudo é um estudo de acurácia de teste.

Tabela 1 2 × 2 para cálculo das medidas de acurácia de teste

Exactidão do teste de diagnóstico, prognóstico ou previsão (transversal ou longitudinal)?

Testes em saúde podem ser usados para diagnóstico, prognóstico e/ou previsão. O diagnóstico refere-se à “probabilidade de que um resultado ou doença específica esteja presente (ou ausente) dentro de um indivíduo, neste momento” . Isto significa que, nos estudos de precisão diagnóstica, a informação do teste é usada para fazer uma classificação de um estado de saúde atual (por exemplo, deficiência cognitiva vs. saudável). Em contraste, “prognóstico refere-se ao risco de (quaisquer) resultados de saúde futuros em pessoas com uma determinada doença ou condição de saúde” (por exemplo, alto risco vs. baixo risco de morrer dentro de 1 ano) . Para testes, isto significa que os estudos de prognóstico e precisão preditiva classificam o risco de desenvolver um resultado no futuro, que não está presente no momento em que o teste é aplicado. O prognóstico pode ser ainda subdividido em pesquisas prognósticas e preditivas. O prognóstico considera o curso natural das doenças e, assim, responde à questão de quem precisa de tratamento (por exemplo, só há necessidade de tratamento se houver risco de desenvolvimento de demência). O prognóstico visa prever o resultado em pacientes tratados e assim responde à pergunta quem e como deve ser tratado (por exemplo, o treinamento de cognição em pessoas com deficiência cognitiva leve só é necessário se houver uma chance de melhora). A seguir, consideraremos juntos os testes de prognóstico e previsão, pois ambos têm uma visão longitudinal do presente no futuro e, portanto, sua precisão pode ser avaliada com os mesmos desenhos de estudo. Entretanto, os autores da revisão sistemática devem considerar cuidadosamente se o estudo em avaliação considera o curso natural das doenças (prognóstico) ou considera pacientes tratados (previsão).

O segundo critério do algoritmo de classificação é a questão se o objetivo do estudo em consideração é avaliar a precisão diagnóstica ou a precisão prognóstica/preditiva de um teste. Como a principal diferença entre estes dois é o componente tempo (status atual vs. futuro), o segundo critério de classificação considera o intervalo de tempo entre o índice e o teste de referência. Um diagnóstico é a classificação de um estado atual. Todas as informações sobre um participante individual referem-se ao mesmo ponto de tempo (por exemplo, o teste cognitivo indica que o paciente atualmente tem demência). Isto implica que todos os estudos de precisão diagnóstica são transversais por natureza. Como um diagnóstico fornece informações sobre um estado atual, o teste de referência e o teste de índice devem ser realizados no mesmo ponto de tempo. Ao aplicar este critério, é importante referenciá-lo ao ponto de tempo de coleta de informações sobre índice e teste de referência para um participante individual do estudo e não ao ponto de tempo de coleta de dados para o estudo (por exemplo, revisão do gráfico para verificar o diagnóstico de demência) para evitar confusão. Por exemplo, um paciente pode receber um teste de índice (por exemplo, teste cognitivo breve) na atenção primária e o teste de referência (por exemplo, avaliação cognitiva abrangente) em uma internação hospitalar vários meses depois. A informação sobre ambos os resultados do teste é recolhida a partir de dados de saúde coletados rotineiramente ao mesmo tempo (por exemplo, um registro de paciente de pacientes geriátricos). Embora os dados para o estudo sejam coletados no mesmo ponto de tempo do registro, o estudo não é transversal porque o índice e o teste de referência não são realizados ao mesmo tempo no nível do participante individual. Na prática, os pontos de tempo nos quais os testes são realizados geralmente não são exatamente os mesmos. Assim, o mesmo ponto de tempo pode significar quase ao mesmo tempo (por exemplo, teste cognitivo breve e avaliação cognitiva abrangente na mesma visita) ou que um teste é realizado perto do outro (por exemplo, teste cognitivo breve e avaliação cognitiva abrangente na mesma internação hospitalar). Deve-se julgar se o intervalo de tempo no estudo em avaliação foi adequado, considerando a probabilidade de que o estado do paciente (por exemplo, sem comprometimento cognitivo) não tenha mudado entre o índice e o teste de referência. Consequentemente, o atraso aceitável depende da condição e é maior em condições de evolução lenta do que em condições de evolução rápida. Para a classificação do desenho do estudo, isto significa, se for possível justificar que é improvável que o estado tenha mudado (por exemplo, o diagnóstico de demência de Alzheimer), estudos com um atraso entre o índice e o teste de referência também podem ser classificados como transversais. Como não se pode excluir que o estado do paciente tenha mudado entre os dois testes, há um risco de erro de classificação nos estudos de precisão diagnóstica, pois a proporção de grupos de pacientes (por exemplo, a proporção classificada como deficiente cognitivo ou não deficiente cognitivo) resultante da classificação do teste pode ter mudado entretanto. Sugerimos que dois intervalos de tempo entre o teste de índice e o teste de referência sejam pré-especificados em revisões sistemáticas sobre a acurácia do teste diagnóstico. Um para a decisão sobre a inclusão na revisão sistemática e outro critério (geralmente um intervalo de tempo menor) para julgar o risco baixo/moderado de viés de verificação tardia . A especificação dos limiares normalmente exigiria a experiência de um metodologista e de um clínico.

Um prognóstico/previsão é uma classificação de um status futuro. Em estudos sobre prognóstico/previsão, o teste de índice é usado para classificar os participantes de acordo com seu risco de desenvolver um determinado resultado (por exemplo, progressão de leve comprometimento cognitivo para demência), ou resposta terapêutica (por exemplo, uma resposta ao treinamento cognitivo). Aqui, o teste de referência é usado para avaliar o estado do desfecho. A informação do índice e dos resultados do teste de referência de um participante individual refere-se a diferentes pontos de tempo. Isto implica que os estudos sobre prognóstico/previsão são sempre longitudinais porque há observações repetidas, nomeadamente o resultado do teste de índice e posteriormente os resultados do teste de referência para cada participante . Em contraste com os estudos de precisão diagnóstica, o intervalo de tempo entre o teste de índice e o teste de referência não deve ser muito curto, mas sim “suficientemente” longo. O intervalo de tempo deve ser escolhido de tal forma que, se o resultado de interesse não tiver ocorrido (por exemplo, teste negativo para demência), é improvável que ocorra logo em seguida (por exemplo, a leve deficiência cognitiva provavelmente não progredirá para demência nos próximos meses). Além de um período de vida, muitas vezes a informação sobre certos intervalos de tempo pré-definidos é clinicamente relevante (por exemplo, o desenvolvimento da demência nos próximos 5 anos). Entretanto, na prática da pesquisa, a escolha do intervalo de tempo pode ser motivada mais pela disponibilidade de dados (por exemplo, a duração do acompanhamento) do que pela importância clínica. Além do julgamento da relevância clínica, o intervalo de tempo no estudo em consideração é crítico para o risco de avaliação do viés. Uma duração insuficiente do seguimento pode causar viés de lead time em estudos com resultados de teste de índice não cego, porque nos participantes com um teste de índice positivo (por exemplo, indicação de comprometimento cognitivo), a ocorrência de um evento é suspeita (por exemplo, desenvolvimento de demência). Portanto, os participantes com um teste de índice positivo geralmente têm uma chance maior de serem monitorados mais de perto e, consequentemente, também têm uma chance maior de receber o teste de referência mais cedo (por exemplo, através de um monitoramento mais intensivo da função cognitiva) do que os participantes com um resultado negativo do teste de índice. Além disso, a observação de menos eventos em um grupo pode ser espúria se o resultado do teste estiver associado apenas a um atraso dos eventos, mas na verdade não diminui a taxa de eventos considerando um período de vida. Portanto, quanto ao diagnóstico, sugerimos que os autores da revisão sistemática pré-especificem dois intervalos de tempo. Um para selecionar estudos que devem ser escolhidos em função do horizonte temporal de interesse (por exemplo, progressão precoce ou tardia) e outro para julgar o risco de viés dos estudos. É importante notar que para o nosso conhecimento para estudos sobre acurácia prognóstica, não existe nenhuma ferramenta para avaliar a qualidade metodológica.

Os autores da revisão sistemática estarão regularmente interessados tanto na acurácia diagnóstica (por exemplo, diagnóstico de comprometimento cognitivo leve) quanto na acurácia prognóstica/preditiva (por exemplo, previsão de demência em pacientes com comprometimento cognitivo leve). Uma pré-especificação dos intervalos de tempo para a seleção dos estudos é, portanto, muito importante para distinguir o diagnóstico dos estudos prognósticos/preditivos, em particular, porque o mesmo teste pode muitas vezes ser usado tanto para diagnóstico quanto para prognóstico/previsão (ver, por exemplo). Isto significa que a questão clínica nem sempre pode ser deduzida do próprio teste, mas que apenas o intervalo de tempo entre o teste de índice e o teste de referência indica se o estudo está em acurácia simultânea ou preditiva.

O segundo critério distingue estudos do tipo coorte de estudos do tipo caso-controle e pode ser aplicado para estudos de precisão diagnóstica de forma semelhante aos estudos de precisão prognóstica/previsão.

Em geral, estudos do tipo coorte e estudos do tipo caso-controle são distinguidos pelo método de seleção dos participantes para o estudo . Em estudos de acurácia de teste de tipo de coorte, os participantes são recrutados com base na suspeita. Por suspeita entendemos que existe uma indicação para realizar o teste, incluindo sinais e sintomas, a presença de fatores de risco (por exemplo, características do paciente, ambiente) ou resultados de testes médicos anteriores.

Teoricamente, no rastreamento populacional, as pessoas podem ser selecionadas, independentemente de haver ou não uma indicação para fazê-lo. Contudo, na prática, este não é o caso habitual, mas também na maioria dos programas de rastreio populacional, existe pelo menos uma indicação vaga para realizar um teste (por exemplo, determinado grupo etário, sexo). Nos desenhos de coorte, todos os participantes suspeitos recebem o teste de índice e o teste de referência para determinar o seu estado actual (diagnóstico) ou para avaliar o seu estado de resultado (prognóstico/previsão). Nos estudos de tipo de coorte de diagnóstico, o teste de índice e o teste de referência são realizados ao mesmo tempo. Esta relação transversal implica que a ordem do teste de referência e do teste de índice pode diferir desde que os testes sejam realizados (quase) ao mesmo tempo ou sem muito atraso (ver acima). Assim, o teste de referência e o teste de índice podem ser realizados simultaneamente, o teste de referência pode ser realizado após o teste de índice ou o teste de índice pode ser realizado após o teste de referência. Para estudos do tipo coorte sobre precisão prognóstico/previsão, a relação longitudinal implica que o teste de índice é sempre realizado antes do teste de referência.

Nos desenhos de caso-controle, a seleção dos participantes é baseada no estado de saúde/resultado. Os resultados do teste de índice de participantes com um resultado/evento de referência positivo (casos) são comparados com os resultados do teste de índice de participantes com um resultado/evento de referência negativo (controles). Semelhante aos estudos de controle de casos sobre exposições ou intervenções, os casos e controles podem vir da mesma fonte (por exemplo, um registro) ou de fontes diferentes (por exemplo, casos de um registro e controles de Alzheimer formam uma base de dados administrativa). Em estudos de precisão diagnóstica de caso-controle, o teste de referência no nível do participante individual é sempre realizado antes do teste de índice, mas a visão/interpretação (por exemplo, revisão retrospectiva do registro) sobre os resultados do teste de índice é sempre retrospectiva. É importante notar que nos desenhos de caso-controle, nenhum valor preditivo pode ser calculado porque a prevalência/incidência (soma de colunas na tabela 2 × 2 de participantes classificados como positivos e negativos com o teste de referência) é um resultado artificial do desenho (por exemplo, 50% na correspondência caso-controle 1:1).

Sugerimos rotular estudos de acurácia diagnóstica com seleção de pacientes com base na suspeita de “estudos transversais selecionados por coorte” e estudos com amostragem baseada em casos “estudos transversais selecionados por caso-controle”. Esta rotulagem assegura uma diferenciação clara dos desenhos de estudos longitudinais e indica o método de selecção dos participantes. Embora estejamos conscientes de que a combinação dos rótulos de coorte e transversais parece ser praticamente o contrário, acreditamos que rotular desta forma é preferível a uma rotulação completamente nova porque a maioria dos revisores está familiarizada com estes métodos de seleção padrão.

Figure a e c na Tabela 2 ilustram o desenho de um “estudo transversal de seleção de coorte” e de um “estudo transversal de seleção de caso-controle”, respectivamente.

Tabela 2 Desenhos de estudo para avaliar a precisão do teste

As classificações (por exemplo, positivo versus negativo) resultantes de um teste de índice para julgar prognóstico/previsão podem ser consideradas como diferentes exposições (por exemplo, alto risco de desenvolvimento de demência versus baixo risco de desenvolvimento de demência) e o período de observação é longitudinal. A única diferença em relação ao clássico estudo de coorte e caso-controle em epidemiologia é a medida de efeito (medidas de precisão do teste ao invés de razões de risco). Portanto, sugerimos rotular da mesma forma os estudos de precisão prognóstico/previsão, ou seja, “estudos de coorte” e “estudos de caso-controle”.

As figuras b e d da Tabela 2 ilustram o desenho de um “estudo de coorte” e um “estudo de caso-controle”, respectivamente.

Os estudos de precisão dos testes podem ser baseados em dados especificamente coletados para o estudo (ou seja, uma base de dados do estudo) ou em fontes de dados já existentes (por exemplo, dados coletados rotineiramente). Muitas vezes a classificação retrospectiva/prospectiva é usada para distinguir se os dados foram especificamente coletados para o estudo ou se uma fonte de dados já existente foi usada. Recomendamos evitar esta classificação por duas razões. Primeiro, muitas vezes os estudos têm aspectos prospectivos (por exemplo, plano de análise), bem como retrospectivos (por exemplo, coleta de dados). Em segundo lugar, especialmente para estudos de precisão diagnóstica, isso levaria a classificações complicadas (por exemplo, estudo transversal retrospectivo). Em vez disso, a fonte de dados utilizada para o estudo deve ser claramente descrita na revisão sistemática.

Exemplos ilustrativos

Tabela 3 mostra um exemplo ilustrativo para cada tipo de estudo de acurácia de teste. No estudo de exemplo 1 , todos os receptores de transplante renal de pelo menos 50 anos receberam um teste imunoquímico fecal (teste de índice) para triagem do câncer colorretal. Após o teste imunoquímico fecal, os pacientes foram encaminhados para a colonoscopia (teste de referência). Neste estudo, a amostragem foi baseada em suspeitas (receptores de transplante renal). O teste de índice e o teste de referência foram realizados ao mesmo tempo (a doença provavelmente não progrediu). Consequentemente, este estudo é um estudo de coorte transversal sobre a acurácia diagnóstica (ver Tabela 2 figura a).

Tabela 3 Exemplos para os diferentes tipos de estudo de acurácia

No segundo exemplo, pacientes com diagnóstico clínico (teste de referência) de Alzheimer (casos) compareceram a uma clínica de memória, foram comparados a participantes sem Alzheimer, que foram recrutados de familiares acompanhando pacientes à clínica de memória (sem doença, controles). Tanto os pacientes quanto os familiares receberam um teste cognitivo (teste de índice) durante a visita à clínica de memória. A amostragem dos participantes foi baseada na doença em um grupo e na ausência de doenças no outro. Embora o teste de referência tenha sido realizado em outro momento como o teste de índice, ele pode ser considerado como o mesmo ponto de tempo porque a doença não poderia ter sido resolvida, ou seja, ainda é um estado atual. Consequentemente, este estudo é um estudo de acurácia diagnóstica transversal de caso-controle (ver Tabela 2 figura c).

O terceiro exemplo examina todos os pacientes entre 50 e 90 anos (suspeita) em uma instituição de saúde pagadora. No estudo, as características dos pacientes e outros fatores foram formalmente combinados em um modelo de prognóstico. O modelo de prognóstico calcula uma pontuação que é dicotomizada usando diferentes cortes (teste de índice). Para cada participante, foi previsto o risco de desenvolver fraturas dentro de 5 anos (evento futuro). A amostragem foi baseada na suspeita e um resultado futuro foi previsto. Embora não esteja totalmente claro a partir da publicação, pode-se supor que a maioria dos pacientes não foi tratada para osteoporose. Consequentemente, o estudo é um estudo de coorte para avaliar a precisão prognóstica (ver Tabela 2 figura b).

O último exemplo de estudo incluiu homens com pelo menos 40 anos (suspeita), que tiveram resultados de uma coleta de sangue de um estudo de coorte de base populacional maior. Os pacientes com câncer de próstata (evento de desfecho) foram amostrados e comparados com pacientes sem câncer de próstata (sem evento de desfecho, controles). Os níveis de antigénio específico da próstata (teste de índice) da colheita de sangue anterior foram categorizados e comparados. Os participantes não foram tratados, a amostragem foi baseada nos resultados e está previsto um resultado futuro. Consequentemente, o estudo é um estudo de caso-controle (aninhado) para avaliar a precisão prognóstica (ver Tabela 2 figura d).

Limitações

O nosso algoritmo cobre apenas as características básicas de desenho dos estudos de precisão do teste. Existem outros critérios que são importantes para o risco de avaliação do viés e para a avaliação da confiança no corpo de evidências. Em particular, o método de amostragem é importante a este respeito. Estudos do tipo coorte com uma amostra consecutiva ou aleatória (por exemplo, um braço de uma trilha controlada aleatorizada) são considerados para fornecer informações menos tendenciosas sobre a precisão do teste. Além disso, a população do estudo deve ser representativa da população alvo, para que medidas de precisão válidas externamente possam ser obtidas .

Deixe uma resposta

O seu endereço de email não será publicado.