Vad är skillnaden mellan MAR- och MCAR-uppgifter som saknas?
En av de viktiga frågorna när det gäller saknade data är mekanismen för saknade data.
Det är viktigt eftersom det påverkar hur mycket de saknade uppgifterna snedvrider dina resultat, så du måste ta hänsyn till det när du väljer ett tillvägagångssätt för att hantera de saknade uppgifterna.
Begreppen för dessa mekanismer kan vara lite abstrakta.
Och för att göra det hela ännu värre, två av dessa mekanismer har förvirrande namn: Missing Completely at Random och Missing at Random.
Missing Completely at Random (MCAR)
Missing Completely at Random är ganska enkelt. Vad det betyder är vad det säger: benägenheten för en datapunkt att saknas är helt slumpmässig.
Det finns inget samband mellan huruvida en datapunkt saknas och eventuella värden i datamängden, oavsett om de saknas eller observeras.
De saknade uppgifterna är bara en slumpmässig delmängd av uppgifterna.
Missing at Random (MAR)
Det är här som de olyckliga namnen kommer in.
Missing at Random innebär att benägenheten för en datapunkt att saknas inte är relaterad till de saknade uppgifterna, men den är relaterad till vissa av de observerade uppgifterna.
Oavsett om någon har svarat #13 i din enkät har det inget att göra med de saknade värdena, men det har att göra med värdena för någon annan variabel.
Ett bättre namn skulle faktiskt vara Missing Conditionally at Random (saknad villkorligt vid slumpmässig), eftersom saknaden är villkorad av en annan variabel. Men det är inte vad Rubin ursprungligen valde, och det skulle verkligen ställa till det för akronymerna vid det här laget.
Tanken är att om vi kan kontrollera denna villkorliga variabel kan vi få en slumpmässig delmängd.
Du kan föreställa dig att bra tekniker för data som saknas slumpmässigt behöver inkorporera variabler som är relaterade till det saknade.
______________________________________________________
Det här inlägget är en del av en serie svar om saknade data som jag blev tillfrågad om under ett nyligen genomfört webbseminarium. Det var nästan 300 personer på det direktsända webbseminariet, så vi hann inte gå igenom alla frågor. Så jag svarar här på några av dem som vi missade.
För att se hela listan över inlägg i den här serien, och en hel del annat, besök vår sida om saknade data.