An algorithm for classification of study designs to assess diagnostic, prognostic and predictive test accuracy in systematic reviews

9月 8, 2021
admin

医療検査結果は臨床的意思決定に情報を与える主な資料である。 検査精度とは、異なる患者群(例:健常者と疾患者)を識別する検査の能力である。 異なる検査の比較影響試験(例:無作為化比較試験)を実施する前に、医療検査の価値を評価する最初のステップは、検査精度の評価である。 さらに、影響度調査がない場合、検査精度に関するエビデンスは、異なる検査ベースの分類から生じる異なるケアパス(例:治療なし対治療)のエビデンスを検査精度指標に関連付けることによって、患者の重要なアウトカムへの影響を推定するために用いることができる(例.9065>

ヘルスケアにおける検査の使用は、たとえ同じ検査であっても、臨床上の疑問(健康状態の診断、治療成功の予測など)や目的(スクリーニングやサーベイランス、治療のモニタリングやステージングなど)により多岐にわたる。) さらに,医学的検査は通常単独で使用されるのではなく,他の検査の前のトリアージ,他の検査へのアドオン,他の検査との並行検査など,他の検査との異なる組み合わせで使用される。

多様な応用分野に加えて,検査精度に関する研究は,診断,予後及び予測(例えば,参照)の区別や,基本となる疫学研究計画(例えば,参照)について医学文献でしばしば不明瞭に分類されている。 これらの点が研究デザインの正しい分類を複雑にしている。

検査精度に関するシステマティックレビュー(感度や特異度など)では、複数の研究からの検査精度指標を要約している。 研究デザインの一貫した明確な定義は、システマティックレビューのいくつかの作業における品質にとって重要である。 これには、研究の選択、バイアスリスク評価のためのツールの選択、どの研究を同じメタ分析にプールすべきかの決定、エビデンス群の確実性の評価などが含まれる

以下では、システマティックレビューにおけるテスト精度研究の分類のためのアルゴリズムを提案します。

予備的考察

このアルゴリズムは、インデックステスト(評価するテスト)の結果と参照テスト(結果が正しい/ゴールドスタンダードとみなされるテスト)の結果を比較する研究のみに適用される。 興味のあるテストは、カテゴリまたは連続測定のカットオフを使用することにより、バイナリ分類を可能にするか(例:高血圧と低血圧、予後モデルのスコア)、本質的にバイナリでなければならない。 このアルゴリズムは、医療で使用されるあらゆる検査に使用することができる。 この検査は、単一の検査(例えば、画像診断)であっても、診断または予後モデルで正式に組み合わされる検査(例えば、画像診断と検査室)または因子(例えば、症状、患者の特徴)の事前定義された組み合わせ(ANDまたはORリンク)であってもよい . 審査員がアルゴリズムを適用する場合、検査は狭義の検査(例:臨床検査、診断機器)であって はならないことを認識する必要がある。 また、観察(例:健康)、医療行為(例:一般的な健康診断)、臨床評価(例:遺体の検査)であってもよい。

このアルゴリズムは、テストのキャリブレーションやテストの信頼性に関する研究(例:テスト・リテスト研究)には使用することができない。 また、テストに関する比較研究やインパクト研究の分類にもこのアルゴリズムは使用できません。 これらは、同じ参照基準を用いて少なくとも2つの検査の精度を比較する研究、または健康アウトカムに対する異なる検査の影響を比較する研究(例えば、死亡率への影響に関して2つの異なるスクリーニング戦略を比較する無作為化対照試験)です。 しかし、検査に関する比較研究では、検査が実施される試験の単独群は、検査精度に関する研究(例えば、スクリーニング検査が使用される無作為化対照試験の群)とみなすことができ、したがって検査精度に関するシステマティックレビューに関連する(可能性がある)ことを考慮することが重要である。 相対的効果測定は計算されるが、検査精度測定は計算できない研究(例えば、予後因子研究)は、曝露に関する研究(例えば、症例対照研究)に分類されるため、この論文では考慮されない。 このような曝露に関する研究や比較影響研究については、別の場所で分類が説明されている

分類アルゴリズム

分類アルゴリズムは、図1に示されている。 このアルゴリズムで分類可能な研究デザインを表2に示す。 以下では、このアルゴリズムの応用について説明する。 説明のために、読者は高齢者の簡単な認知テストのテスト精度に関するシステマティックレビューを想像するかもしれませんが、我々はアルゴリズムの説明を通して例を提供します。

Fig. 1
figure1

Algorithm for classification of test accuracy study desings

Is it a test accuracy study?

研究は正確さの指標を報告せず、正確さの指標(例えば認知症診断のための認知テストの感度)を計算できるデータを提供するだけかもしれないので、検討中の研究が本当にテストの正確さの研究であるかどうかは常に直接明らかであるとは限りません。 言い換えれば、システマティックレビューの著者は、2×2のクロス集計(表1参照)を計算することが可能かどうかをチェックしなければなりません。 したがって、アルゴリズムの最初の基準は、研究がテスト精度研究であるかどうかという質問です。

Table 1 2 × 2 cross table for calculation of test accuracy measures

診断、予後または予測テスト精度(横断または縦断)

医療におけるテストは、診断、予後および/または予測に使用することができる。 診断とは、「ある時点において、ある個人内に特定の結果や疾患が存在する(または存在しない)確率」を指します。 つまり、診断精度の研究では、検査情報は、現在の健康状態(例えば、認知障害か健康か)の分類を行うために使用されることを意味する。 これに対して、「予後」とは、ある疾患や健康状態にある人が、将来、どのような健康状態になるかのリスクを指す」(例えば、1年以内に死亡するリスクが高いか低いか、など)。 検査の場合、これは予後と予測精度の研究が、検査適用時には存在しない、将来の転帰を発症するリスクを分類することを意味する。 予後は、予後研究と予測研究にさらに細分化される。 予後研究は、病気の自然経過を考慮し、誰が治療を必要とするかという問題に答えるものです(例えば、認知症を発症するリスクがある場合のみ治療の必要性があります)。 予測は、治療した患者の転帰を予測するものであり、誰がどのように治療すべきかという問いに答えるものである(例:軽度認知障害者の認知トレーニングは改善の可能性がある場合のみ必要である)。 以下、予後予測検査と予測検査を一緒に考えるのは、どちらも現在から未来にかけての縦断的な視点を持っているため、同じ研究デザインで検査の精度を評価することができるからである。 しかし、システマティックレビューの著者は、評価対象の研究が疾患の自然経過(予後)を考慮するか、治療された患者(予測)を考慮するかを慎重に検討する必要があります。

分類アルゴリズムの第2の基準は、検討対象の研究の目的が検査の診断精度または予後・予測精度の評価であるかという疑問です。 両者の主な違いは時間的要素(現在と将来の状態)であるため、2番目の分類基準では指標検査と参照検査の時間間隔を考慮する。 診断とは、現在の状態を分類することである。 個々の参加者に関するすべての情報は、同じ時点を参照している(例えば、認知機能検査は、患者が現在認知症であることを示す)。 このことは、すべての診断精度研究が横断的なものであることを意味する。 診断は現在の状態に関する情報を提供するので、基準検査と指標検査は同じ時点で実施されるべきです。 この基準を適用する場合、混乱を避けるために、研究のためのデータ収集の時点(例えば、認知症の診断を確認するためのカルテレビュー)ではなく、個々の研究参加者の指標と参照テストの情報を収集する時点を参照することが重要である。 例えば、ある患者がプライマリーケアで指標となる検査(簡易認知機能検査など)を受け、数ヶ月後の入院時に参照検査(包括的認知機能評価など)を受けるとします。 両方の検査結果に関する情報は、同じ時点でルーチンに収集された医療データ(例えば、老年患者の患者登録)から収集される。 この研究のデータはレジストリから同じ時点で収集されますが、参加者個人レベルでは指標検査と参照検査が同時に行われないため、この研究は横断的ではありません。 実際には、検査が実施される時点は、通常、全く同じではない。 したがって、同じ時点というのは、ほぼ同じ時点(例えば、同じ診察時に簡単な認知テストと包括的な認知評価)であったり、一方のテストが他方の近くに行われること(例えば、同じ入院時に簡単な認知テストと包括的な認知評価)であったりするのである。 指標となる検査から基準検査までの間に、患者の状態(例えば、認知機能障害がない)が変化していない確率を考慮して、評価対象研究の時間間隔が適切であったかどうかを判断する必要がある。 その結果、許容される遅延時間は状態によって異なり、進行が遅い状態では進行が速い状態に比べて大きくなる。 このことは、研究デザインの分類では、状態が変化したことがあり得ない(例:アルツハイ マー型認知症の診断)ことが正当化できる場合、指標と基準検査の間に遅れがある研究も横断的 に分類されるかもしれないことを意味する。 また、2回の検査の間に患者の状態が変化している可能性が否定できないため、診断精度に関する研究では、検査の分類から得られる患者群の比率(例えば、認知障害と非認知障害に分類される比率)がその間に変化している可能性があり、誤分類バイアスが生じる危険性がある。 我々は、診断テストの精度に関するシステマティックレビューにおいて、指標となるテストと参照テストとの間に2つの時間間隔をあらかじめ指定することを提案する。 一つはシステマティックレビューに含めるかどうかの判断基準、もう一つは検証遅延バイアスのリスクが低いか中程度かを判断する基準(通常はより小さい時間間隔)である。 この閾値の指定には、通常、方法論者と臨床医の専門知識が必要となる。

予後・予測とは、将来の状態を分類したものである。 予後予測に関する研究では、ある結果(例:軽度認知障害から認知症への進行)の発症リスクや治療効果(例:認知トレーニングへの反応)に応じて参加者を分類するために指標となる検査が用いられる。 ここで、アウトカムの状態を評価するために、基準検査が使用される。 個々の参加者の指標と参照テストの結果の情報は、異なるタイムポイントを参照しています。 このことは、予後予測に関する研究が常に縦断的であることを意味します。なぜなら、各参加者のインデックステストの結果と、その後のリファレンステストの結果という観測が繰り返されるからです。 診断精度の研究とは対照的に、指標となる検査と参照検査の間の時間間隔は短すぎず、「十分」な長さであるべきである。 この時間間隔は、関心のある結果が生じていない場合(例えば、認知症の検査が陰性)、その後すぐに生じることはありえない(例えば、軽度認知障害が次の月に認知症に進行することはおそらくない)ように選択する必要がある。 生涯期間に加えて、多くの場合、特定の事前定義された時間間隔に関する情報が臨床的に適切である(例えば、今後5年以内に認知症を発症する)。 しかし、研究の実践では、時間間隔の選択は、臨床的重要性よりも、むしろデータの利用可能性(例:フォローアップの長さ)により推進されることがある。 臨床的重要性の判断に加え、検討中の研究における時間間隔は、バイアスリスク評価にとって重要である。 指標となる検査が陽性である参加者(例えば、認知機能障害の適応)では、イベントの発生(例えば、認知症の発症)が疑われるため、非盲検の指標検査結果を用いた研究では、フォローアップ期間が不十分だと、リードタイムバイアスが発生する可能性がある。 したがって、指標検査が陽性である参加者は、指標検査が陰性である参加者に比べて、より厳密に監視される機会が多く、その結果、(例えば、認知機能のより集中的な監視を通じて)早期に参照検査を受ける機会も多くなるのである。 さらに、もし検査結果がイベントの遅延に関連するだけで、実際には生涯を考慮したイベント発生率を低下させない場合、あるグループにおいてイベントが少ないという観察は偽りになりかねない。 したがって、診断に関しては、システマティックレビューの著者は、2つの時間間隔をあらかじめ指定することを提案する。 一つは、関心のある時間軸(例えば、早期進行か後期進行か)に応じて選択すべき研究を選択するため、もう一つは、研究のバイアスリスクを判断するためである 。

システマティックレビューの著者は、診断精度(例:軽度認知障害の診断)または予後・予測精度(例:軽度認知障害患者における認知症の予測)のいずれかに関心を持つことが多いでしょう。 特に、同じ検査が診断と予後・予測に使われることが多いため、診断と予後・予測の研究を区別するために、研究選択のための時間間隔の事前指定は非常に重要である(例えば、以下を参照)。 つまり、臨床的な疑問は検査自体から常に推測できるわけではなく、指標となる検査と参照検査の間の時間間隔のみが、その研究が同時的なものか予測的なものかを示しているのです。 さらに、遅延検証から予後・予測への移行は流動的であるため、区別は難しいかもしれない。

系統的レビューの著者が、テストを診断または予後・予測にのみ使用できると確信している場合、アルゴリズムのそれぞれの(診断、予後・予測)経路のみを使用することが可能である。

2番目の基準はコホート型研究とケースコントロール型研究を区別し、診断精度研究については予後/予測精度研究と同様の方法で適用することができます。 コホートタイプの検査精度研究では、参加者は疑いに基づいて募集される。 疑惑とは,徴候や症状,危険因子(患者の特性や環境など)の存在,あるいは過去の医学的検査の結果など,検査を実施するための指示があることを意味する。 しかし、実際にはこれは通常のケースではなく、ほとんどの集団ベースのスクリーニングプログラムでは、少なくとも検査を行うための漠然とした指示(例えば、特定の年齢層、性別)が存在する。 コホートデザインでは、疑わしい参加者全員が、現在の状態(診断)を決定するため、あるいは結果の状態(予後/予測)を評価するために、指標となる検査と参照となる検査を受ける。 診断コホート型では、指標となる検査と参照となる検査は同時に行われる。 この横断的な関係は、検査が(ほぼ)同時に、あるいはあまり遅れることなく行われる限り、参照検査と指標検査の順番が異なってもよいことを意味する(上記参照)。 したがって、基準検査と指標検査は同時に実施することができ、基準検査は指標検査の後に実施することができ、指標検査は基準検査の後に実施することができる。 予後/予測精度に関するコホートタイプの研究では、縦断的な関係から、指標検査は常に基準検査の前に実施されることになる。

ケースコントロールデザインでは、参加者の選択は健康状態/結果に基づいて行われる。 基準検査の結果/事象が陽性であった参加者(ケース)の指標検査の結果は、基準検査の結果/事象が陰性であった参加者(コントロール)の指標検査の結果と比較されます。 曝露または介入に関する症例対照研究と同様に、症例と対照は、同じ情報源(例えば、登録)または異なる情報源(例えば、アルツハイマー病の登録からの症例と行政データベースからの対照)から得られるかもしれない。 症例-対照診断精度試験では、参加者個人レベルでの参照検査は常に指標検査の前に行われるが、指標検査の結果に対する見解/解釈(例えば、レトロスペクティブ・レコードレビュー)は、常にレトロスペクティブである。 症例対照デザインでは、有病率/発生率(基準検査で陽性と陰性に分類された参加者の2×2表における列和)がデザインの人工的な結果(例えば、1:1症例対照マッチングでは50%)なので、予測値を計算できないことに注意することが重要です。

我々は、疑いによる患者選択を伴う診断精度研究を「コホート選択横断的研究」、症例ベースのサンプリングを伴う研究を「ケース-コントロール選択横断的研究」と呼ぶことを提案します。 このラベル付けは、縦断的研究デザインとの明確な区別を保証し、参加者の選択方法を示すものである。 しかし、ほとんどの査読者はこれらの標準的な選択方法に慣れているため、このようにラベル付けすることは、全く新しいラベル付けよりも望ましいと考える。

表2 検査精度を評価する研究デザイン

予後・予測を判断する指標検査で得られた分類(陽性と陰性など)は、異なる曝露(認知症の発症リスクが高いか低いかなど)として考えることができ、観察期間は縦断的である。 疫学における古典的なコホートやケースコントロール研究との違いは、効果指標(リスク比の代わりに検査精度の指標)のみである。 したがって、予後・予測精度研究も同様に「コホート研究」「症例対照研究」と表記することを提案する。

表2の図bとdは、それぞれ「コホート研究」「症例対照研究」のデザインを示す。

検査精度研究は、研究のために特別に収集したデータ(すなわち研究データベース)、あるいはすでにあるデータソース(例えば、ルーチン収集データ)に基づいている可能性もある。 しばしばレトロスペクティブ/プロスペクティブという分類が使われ、データが研究のために特別に収集されたのか、既存のデータソースが使われたのかを区別するために使われることがある。 我々は2つの理由から、この分類を避けることを推奨する。 第一に、研究にはレトロスペクティブな側面(データ収集など)だけでなく、プロスペクティブな側面(分析計画など)もあることが多い。 第二に、特に診断精度に関する研究では、この分類は面倒な分類になる(例:レトロスペクティブ・クロスセクショナル・スタディ)。 その代わりに、研究に使用されたデータソースをシステマティックレビューで明確に記述する必要があります。 試験例1では、50歳以上のすべての腎臓移植患者が、大腸がんスクリーニングのための糞便免疫化学検査(インデックス検査)を受けた。 便潜血検査後、患者は大腸内視鏡検査(参照検査)を受けることになる。 この研究では、サンプリングは疑いに基づいて行われた(腎臓移植者)。 また、指標となる検査と参考となる検査を同時に行った(病気が進行していない可能性が高い)。 その結果、この研究は診断精度に関するコホートサンプリング横断研究である(表2図a参照)

表3 異なる精度研究のタイプの例

第2の例では、アルツハイマー病の臨床診断(基準検査)を受けてメモリークリニックに通院する患者(ケース)を、メモリークリニックに患者に付き添う親族から集められたアルツハイマーを持たない参加者とマッチさせました(病気ではない、コントロール)。 患者および親族は、メモリークリニック受診時に認知機能検査(インデックステスト)を受けた。 参加者のサンプリングは、一方のグループが疾患あり、もう一方のグループが疾患なしという条件で行われた。 基準検査は指標検査とは別の時期に実施されたが、疾患が治癒していない、すなわち現在の状態であるため、同じ時点とみなすことができる。 その結果、この研究は症例対照サンプリングによる横断的診断精度研究である(表2図c参照)

3番目の例は、有料医療機関の50歳から90歳の全患者(疑い)を調査するものである。 この研究では、患者特性やその他の要因が予後予測モデルで正式に組み合わされた。 予後モデルは,異なるカットオフ値を用いて二値化されたスコアを算出する(インデックステスト)。 各参加者について、5年以内に骨折を発症するリスク(将来的なイベント)を予測した。 サンプリングは疑いに基づいて行われ、将来の結果が予測された。 発表資料からは十分に明らかではないが、ほとんどの患者は骨粗鬆症の治療を受けていなかったと推測される。 その結果、この研究は予後精度を評価するためのコホート研究である(表2図b参照)

最後の例の研究は、より大きな人口ベースのコホート研究の採血結果を持つ、少なくとも40歳の男性(疑い)を対象としたものである。 前立腺がん患者(結果事象)が採取され、前立腺がんのない患者(結果事象なし、対照)とマッチングされた。 事前の採血の前立腺特異抗原値(指標となる検査値)を分類し、比較した。 参加者は未治療であり、サンプリングは転帰に基づいて行われ、将来の転帰が予測される。 その結果、この研究は予後精度を評価するための(入れ子)ケースコントロール研究である(表2図d参照)

Limitations

我々のアルゴリズムは、検査精度研究の基本的デザイン特徴のみを対象としている。 偏りのリスク評価やエビデンスの信頼性評価に重要な基準がさらに存在する。 特に、サンプリング方法は、この点で重要である。 連続標本または無作為標本(例えば、無作為化対照試験の1群)を用いたコホートタイプの研究は、検査精度に関する偏りの少ない情報を提供すると考えられている。 さらに、外部的に妥当な精度測定が得られるように、研究対象者を代表する集団であるべきです。

コメントを残す

メールアドレスが公開されることはありません。