Was ist der Unterschied zwischen MAR und MCAR bei fehlenden Daten?
Eines der wichtigsten Probleme bei fehlenden Daten ist der Mechanismus der fehlenden Daten.
Er ist wichtig, weil er beeinflusst, wie stark die fehlenden Daten die Ergebnisse verzerren, so dass man ihn berücksichtigen muss, wenn man einen Ansatz zum Umgang mit den fehlenden Daten wählt.
Die Konzepte dieser Mechanismen können etwas abstrakt sein.
Und zu allem Überfluss haben zwei dieser Mechanismen verwirrende Namen: Missing Completely at Random und Missing at Random.
Missing Completely at Random (MCAR)
Missing Completely at Random ist ziemlich einfach. Es bedeutet genau das, was es sagt: Die Wahrscheinlichkeit, dass ein Datenpunkt fehlt, ist völlig zufällig.
Es gibt keinen Zusammenhang zwischen dem Fehlen eines Datenpunkts und den Werten im Datensatz, ob sie nun fehlen oder beobachtet werden.
Die fehlenden Daten sind nur eine zufällige Teilmenge der Daten.
Missing at Random (MAR)
Hier kommen die unglücklichen Namen ins Spiel.
Missing at Random bedeutet, dass die Wahrscheinlichkeit, dass ein Datenpunkt fehlt, nicht mit den fehlenden Daten zusammenhängt, sondern mit einigen der beobachteten Daten.
Ob jemand in Ihrer Umfrage die Nummer 13 beantwortet hat oder nicht, hat nichts mit den fehlenden Werten zu tun, wohl aber mit den Werten einer anderen Variablen.
Ein besserer Name wäre eigentlich Missing Conditionally at Random, weil die Fehlenden von einer anderen Variablen abhängig sind. Aber das ist nicht das, was Rubin ursprünglich gewählt hat, und es würde die Akronyme an dieser Stelle wirklich durcheinander bringen.
Die Idee ist, wenn wir diese bedingte Variable kontrollieren können, können wir eine zufällige Teilmenge erhalten.
Sie können sich vorstellen, dass gute Techniken für Daten, die zufällig fehlen, Variablen einbeziehen müssen, die mit dem Fehlen in Zusammenhang stehen.
______________________________________________________
Dieser Beitrag ist Teil einer Reihe von Antworten über fehlende Daten, die mir während eines kürzlichen Webinars gestellt wurden. An dem Live-Webinar nahmen fast 300 Personen teil, so dass wir nicht alle Fragen durchgehen konnten. Daher beantworte ich hier einige der Fragen, die wir nicht beantwortet haben.
Die vollständige Liste der Beiträge dieser Serie und viele weitere finden Sie auf unserer Seite über fehlende Daten.