Quelle est la différence entre les données manquantes MAR et MCAR ?

Déc 30, 2021
admin

L’une des questions importantes concernant les données manquantes est le mécanisme des données manquantes.

Il est important car il affecte la mesure dans laquelle les données manquantes biaisent vos résultats, vous devez donc en tenir compte lorsque vous choisissez une approche pour traiter les données manquantes.

Les concepts de ces mécanismes peuvent être un peu abstraits.

Et pour couronner le tout, deux de ces mécanismes ont des noms déroutants : Missing Completely at Random et Missing at Random.

Missing Completely at Random (MCAR)

Missing Completely at Random est assez simple. Ce que cela signifie est ce que cela dit : la propension d’un point de données à être manquant est complètement aléatoire.

Il n’y a aucune relation entre le fait qu’un point de données soit manquant et toutes les valeurs de l’ensemble de données, manquantes ou observées.

Les données manquantes sont juste un sous-ensemble aléatoire des données.

Missing at Random (MAR)

C’est là que les noms malheureux entrent en jeu.

Missing at Random signifie que la propension d’un point de données à être manquant n’est pas liée aux données manquantes, mais qu’elle est liée à certaines des données observées.

Que quelqu’un ait répondu #13 ou non à votre enquête n’a rien à voir avec les valeurs manquantes, mais cela a à voir avec les valeurs d’une autre variable.

Un meilleur nom serait en fait Missing Conditionally at Random, parce que le caractère manquant est conditionnel à une autre variable. Mais ce n’est pas ce que Rubin a choisi à l’origine, et cela brouillerait vraiment les acronymes à ce stade.

L’idée est que, si nous pouvons contrôler cette variable conditionnelle, nous pouvons obtenir un sous-ensemble aléatoire.

Vous pouvez imaginer que les bonnes techniques pour les données manquantes au hasard doivent intégrer des variables qui sont liées à l’absence de données.

______________________________________________________

Ce billet fait partie d’une série de réponses sur les données manquantes qui m’ont été posées lors d’un récent webinaire. Il y avait près de 300 personnes sur le webinaire en direct, donc nous ne sommes pas passés par toutes les questions. Je réponds donc ici à certaines de celles que nous avons manquées.

Pour voir la liste complète des posts de cette série, et bien d’autres, visitez notre page sur les données manquantes.

Approches aux données manquantes : le bon, le mauvais et l’impensable
Apprenez les différentes méthodes pour traiter les données manquantes et comment elles fonctionnent dans différentes situations de données manquantes.

.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.