PMC
Discussion
ミシガン州の出生登録データを用いて、我々の知る限りミシガン州が独自に生命統計フォームに含めている自己申告の祖先と比較して、ANAは高い特異性を持っているが、アラブの祖先を検出する手段としては中程度の感度しかないことが判明した。 調査地域のアラブ系アメリカ人の濃度が高くなるにつれて、ANAの感度とPPVは増加し、アルゴリズムの特異度とNPVは減少した。 NPVは高く,アラブ祖先の有病率にかかわらず,すべての層別で93.5%以上であった。
我々の知る限り,これは健康研究に用いるためのアラブ姓アルゴリズムを検証する最初の試みである. アラブ諸国およびアラブ民族が一般的でない中東諸国の姓を含む Middle East Surname List (MESL) が開発され、検証されている (Nasseri 2007)。 MESL は、社会保障庁、カリフォルニア州がん登録、専門家の意見から得られた氏名データを用い、出生国を中 東の判定基準として作成され、中東の国で生まれたかどうかを比較的正確に判定できると報告されている (Nasseri 2007)。 カリフォルニアがん登録患者における中東出身者の判定における MESL の感度は 88.62%、特異度は 99.46%、PPV は 68.54%、NPV は 99.85%であった。 MESLの手法は、我々のANAとは3つの点で異なっている。 まず、MESLはイラン、アフガニスタン、パキスタン、アルメニアを含む「中東」諸国の人名を含んでいる。 2つ目は、最終的なMESLの作成には複数の情報源が使用されたことである。
我々は、女性に比べて男性におけるANAの偽陽性および偽陰性率がかなり高いことを見いだした。 ANAを用いると、アラブ系アメリカ人男性の方がアラブ系アメリカ人女性よりも非アラブ系アメリカ人と判定されやすく、非アラブ系アメリカ人男性の方が非アラブ系アメリカ人女性よりもアラブ系アメリカ人と判定されやすいことが分かった。
臨床場面におけるスクリーニング検査の評価では,検査の感度と特異度はすべての集団で一定であり,PPVとNPVは疾患の有病率によって変化し,疾患の有病率が高い集団でPPVが高くなると予想される. PPVはアラブ系アメリカ人の割合が高い層で高いことがわかったが、ANAの感度は他の姓名判断アルゴリズムほどではないが、アラブ系アメリカ人が多く住む地域と女性ではるかに高いことがわかった(Nasseri 2007)。 このことは、アラブ系アメリカ人の人口が高密度地域と低密度地域で差があることを指摘している。 アラブ系アメリカ人が密集する地域、すなわち飛び地に住むアラブ系アメリカ人は、アラブ系アメリカ人が密集していない地域のアラブ系アメリカ人に比べて社会経済的地位(SES)が低く、またイスラム教徒である可能性が高い(Logan et al.2002, Abudabbeh 1996, Abu-Laban and Suleiman 1989, El-Badry 1994, Naff 1985, Amer and Hovey 2007)。 この結果は、アラブ系アメリカ人が集中している地域では、アラブ系アメリカ人が少ない地域と比較して、キリスト教徒のアラブ系アメリカ人とイスラム教徒のアラブ系アメリカ人の比率によって部分的に説明できるかもしれないという仮説が成り立つ。 キリスト教系アラブ人には聖書の名前が一般的であるため、民族的に特徴的でANAに含まれるような名前を持つ可能性は低くなる。 したがって、ANAの偽陰性率の理由の一部は、民族的に特徴的でない名前を持つキリスト教徒アラブ系アメリカ人が、姓からアラブ系アメリカ人と認識されないために起こる可能性がある。 また、エスニック・エンクレーブの外には、完全なアラブ系ではなく部分的にアラブ系の祖先を持つ人が比較的多く、彼らはアラブ系祖先の質問を支持しているものの、そうした祖先は母方に限られていて姓に反映されていない可能性がある。 守秘義務のため、出生記録上の実際の姓は我々が利用することはできなかった。
アラブ系アメリカ人が密集している地域では特異性が低く、アラブ系アメリカ人でない人が誤ってアラブ系アメリカ人と判定される割合が高い。 米国のムスリムコミュニティでは多民族集会が一般的であり(Haniff 2003)、米国のアラブ系アメリカ人はイスラム教徒が圧倒的に多い(Arab American Institute Foundation 2008)ため、アラブ系アメリカ人が密集する地域では他の民族のムスリムの割合が高い可能性がある。 偽陽性の原因の一つは、ANAに含まれる名前の中に、南アジアやアフリカ系アメリカ人の改宗者など、他の祖先を持つイスラム教徒が含まれていることである可能性がある。 社会保障庁におけるANAリストの作成は、アラブ諸国で特徴的な名前を特定するように設計されているが、アラブ諸国でより一般的でありながら、イスラム教徒の割合が高い他の集団に見られる名前も含まれている。
この研究の結果を解釈する際に重要なのは、我々の分析が、年長の青年から中年の成人までの年齢層の両親のみを含み、アラブ系アメリカ人の集団全体を代表していない可能性があることを認識することである。 また、両親のデータを用いた場合、アラブ系アメリカ人一世は、一般の人々よりも民族的な特徴を持った名前を持つ可能性が高い、あるいは低い可能性があり、過剰に表現されてしまうかもしれません。 もう一つの限界は、ANAの測定基準が民族性ではなく、自認するアラブ人の家系であることである。 祖先の概念は民族性とは異なる解釈をされる可能性があるため、我々の知見はアルゴリズムの民族性判定能力に一般化されない可能性がある。 私たちの知る限り、自己申告のアラブ人祖先に関する質問の検証は行われていない。 最後に、少数民族集団に関する健康調査において、名前アルゴリズムの目的を考慮することが重要である。 ANAの最も重要な用途は、アラブ系アメリカ人の最大割合を検出する能力ではなく、アラブ系アメリカ人である可能性が非常に高く、一般のアラブ系アメリカ人集団と系統的に異ならない集団を特定する能力であるかもしれません。 例えば、ShinとYuは、韓国人集団の22%が「キム」という姓を共有しているため、キム姓を持つ者だけの測定基準は韓国系アメリカ人集団に一般化できることを示唆した(Shin and Yu 1984)。 もしANAがアラブ系アメリカ人の代表的なサンプルを定義することができるのであれば、感度が中程度であるにもかかわらず、健康調査に使用するのに適していると言えるかもしれない。 そのため、アラブ系アメリカ人集団の健康指標の評価には、一様に高いことが判明したANAのNPVが感度よりも重要であると考えられる。 ANAは、アラブ系アメリカ人の割合が高い研究集団で最も感度が高かったが、アラブ系アメリカ人の割合が低い地域では、実際にはわずかに感度が高かった。 その高い特異性から、ANAはアラブ系アメリカ人集団の健康指標を評価する手段として有用であると考えられる。しかし、アラブの家系によって定義されるアラブ系アメリカ人集団とANAによって定義される集団の実際の健康特性を比較する研究が必要である。 Arab Names Algorithmは、アラブ系アメリカ人に関する健康調査に使用するための、アラブ系祖先を検出するための、特異性は高いが感度は中程度な手段である。 調査地域のアラブ系アメリカ人の濃度が高くなるにつれて、ANA偽陽性率は増加し、偽陰性率は減少した。 今後の研究では、アラブ祖先によって定義されたアラブ系アメリカ人集団とANAによって定義された集団の健康特性を比較する必要がある
.