MARとMCARの欠損データの違いは何ですか?
欠損データに関する重要な問題の1つは、欠損データのメカニズムです。
欠損データが結果にどの程度バイアスをかけるかに影響するので、欠損データに対処するアプローチを選択する際に考慮しなければならないので重要です。
これらのメカニズムの概念は少し抽象的です。
さらに、これらのメカニズムのうち2つが紛らわしい名前を持っていることも挙げられます。
Missing Completely at Random (MCAR)
Missing Completely at Random は非常に簡単です。
Missing at Random (MAR)
Missing at Randomは、非常にわかりやすい名前です。
Missing at Randomは、データポイントが見つからない傾向は、見つからないデータとは関係ないが、観察されたデータのいくつかとは関係があることを意味します。
誰かがアンケートで#13と答えたかどうかは、見つからない値とは関係ありませんが、いくつかの他の変数の値とは関係があるのです。 しかし、これはルービンがもともと選んだ名前ではありませんし、この時点で頭字語がめちゃくちゃになってしまいます。
考え方は、この条件付き変数を制御できれば、ランダムなサブセットを得ることができます。
ランダムに欠落するデータに対する優れたテクニックは、欠落に関連する変数を組み込む必要があると想像できます。
_____________________________________
この投稿は、最近の Web セミナーで私が聞かれた欠損データに関する一連の回答の一部です。 ライブの Web セミナーには 300 人近くが参加したため、すべての質問を終えることができませんでした。
このシリーズの投稿の全リストとその他の投稿は、データの欠落のページをご覧ください。