Jaký je rozdíl mezi chybějícími údaji MAR a MCAR?
Jednou z důležitých otázek týkajících se chybějících dat je mechanismus chybějících dat.
Je důležitý, protože ovlivňuje, jak moc chybějící data zkreslují vaše výsledky, takže ho musíte vzít v úvahu při volbě přístupu k řešení chybějících dat.
Pojmy těchto mechanismů mohou být trochu abstraktní.
A aby toho nebylo málo, dva z těchto mechanismů mají matoucí názvy:
Missing Completely at Random (MCAR)
Missing Completely at Random je poměrně jednoduchý. Znamená to, co říká: náchylnost datového bodu k chybění je zcela náhodná.
Není žádný vztah mezi tím, zda datový bod chybí, a jakoukoli hodnotou v souboru dat, chybějící nebo pozorovanou.
Chybějící data jsou jen náhodnou podmnožinou dat.
Missing at Random (MAR)
Tady přicházejí na řadu nešťastné názvy.
Missing at Random znamená, že náchylnost k chybějícímu datovému bodu nesouvisí s chybějícími údaji, ale souvisí s některými pozorovanými údaji.
To, zda někdo ve vašem průzkumu odpověděl č. 13, nesouvisí s chybějícími hodnotami, ale souvisí s hodnotami některé jiné proměnné.
Lepší název by ve skutečnosti byl Missing Conditionally at Random, protože chybění je podmíněno jinou proměnnou. Ale to Rubin původně nezvolil a v tuto chvíli by to opravdu zkomolilo zkratky.
Jde o to, že pokud můžeme kontrolovat tuto podmíněnou proměnnou, můžeme získat náhodný podsoubor.
Dovedete si představit, že dobré techniky pro náhodně chybějící data musí zahrnovat proměnné, které s chybějícími daty souvisejí.
______________________________________________________
Tento příspěvek je součástí série odpovědí o chybějících datech, na které jsem byl dotazován během nedávného webináře. Na živém webináři bylo téměř 300 lidí, takže jsme se nedostali ke všem otázkám. Proto zde odpovídám na některé z těch, které jsme vynechali.
Úplný seznam příspěvků z této série a spoustu dalších najdete na naší stránce Chybějící data.
.