Analyse du taux de désabonnement

Mai 29, 2021
admin

Brève présentation de l’analyse et de la prédiction du taux de désabonnement avec un classificateur à arbre de décision.

Le taux de désabonnement est l’un des problèmes les plus importants et les plus difficiles pour les entreprises telles que les sociétés de cartes de crédit, les fournisseurs de services câblés, les SASS et les sociétés de télécommunications du monde entier. Même si ce n’est pas le plus amusant à regarder, les mesures de désabonnement des clients peuvent aider les entreprises à améliorer la rétention des clients.

Customer Churn Photo by freestocks on Unsplash

Nous pouvons classer le customer churn (également appelé attrition de la clientèle) en les regroupant en différentes catégories. Le taux de désabonnement contractuel, qui s’applique aux entreprises telles que les câblo-opérateurs et les fournisseurs de services SAAS, correspond au cas où les clients décident de ne pas poursuivre leurs contrats arrivés à échéance. Le désabonnement volontaire, quant à lui, se produit lorsqu’un client décide d’annuler son service existant, ce qui peut s’appliquer à des entreprises telles que les téléphones portables prépayés et les fournisseurs d’abonnements de streaming. Il arrive également que des consommateurs abandonnent un achat éventuel sans conclure la transaction. Nous pouvons classer ces cas dans la catégorie des désistements non contractuels, qui s’appliquent aux entreprises qui dépendent de magasins de détail, de magasins en ligne ou de services d’emprunt en ligne. Et enfin, il y a le churn involontaire, par exemple lorsqu’un client ne peut pas payer sa facture de carte de crédit et ne reste plus avec la société de carte de crédit.

Le raisonnement du churn des clients peut varier et nécessiterait une connaissance du domaine afin de le définir correctement, cependant certains communs sont ; le manque d’utilisation du produit, un service médiocre et un meilleur prix ailleurs. Indépendamment des raisons qui peuvent être spécifiques aux différentes industries, une chose s’applique à tous les domaines : il est plus coûteux d’acquérir de nouveaux clients que de conserver les clients existants. Cela a un impact direct sur les coûts d’exploitation et les budgets marketing au sein de l’entreprise.

Photo de rupixen.com on Unsplash

En raison de l’importance significative du taux de désabonnement au sein d’une entreprise, les parties prenantes investissent plus de temps et d’efforts pour découvrir le raisonnement au sein de leurs organisations, comment elles peuvent prédire avec précision le type de clients existants qui peuvent cesser de faire des affaires avec elles et ce qu’elles peuvent faire pour minimiser le taux de désabonnement.

La meilleure façon d’éviter le désabonnement des clients est de connaître vos clients, et la meilleure façon de connaître votre client est à travers les données historiques et les nouvelles données sur les clients.

Dans cet article, nous allons parcourir certaines données sur les consommateurs et voir comment nous pouvons tirer parti de la connaissance des données et de la modélisation prédictive afin d’améliorer la rétention des clients. Dans notre analyse, nous utiliserons Python et une variété d’algorithmes d’apprentissage automatique pour la prédiction.

Notre premier ensemble de données client provient d’une société de cartes de crédit, où nous sommes en mesure d’examiner les attributs des clients tels que le sexe, l’âge, l’ancienneté, le solde, le nombre de produits auxquels ils sont abonnés, leur salaire estimé et s’ils ont arrêté l’abonnement ou non.

Nous pouvons voir notre ensemble de données mais nous voulons également nous assurer que les données sont propres, donc dans le cadre du processus de nettoyage, nous examinons les valeurs manquantes et les types de données.

Lorsque nous regardons les aperçus statistiques, nous constatons que l’âge moyen de nos clients est de 39 ans, que le client est membre depuis 5 mois en moyenne et que le salaire moyen estimé est de 100K.

Lorsque nous regardons la distribution géographique et de genre du salaire estimé, nous voyons que le salaire moyen estimé des hommes est plus élevé que celui des femmes en France et en Espagne, cependant en Allemagne le salaire moyen estimé des femmes est plus élevé.

Lorsque nous examinons la relation entre l’âge et le score de crédit, la relation linéaire est très faible afin de définir clairement la corrélation.

Sur la base de notre analyse exploratoire de base, nous pouvons définir les attributs importants du client qui peuvent nous donner le meilleur aperçu afin de prédire le type de clients qui peuvent chuter. Nous pouvons poursuivre cette analyse pour répondre à des questions de base telles que « Un salaire estimé plus bas augmente-t-il le taux de désabonnement ? ». Ou « Est-ce qu’un score de crédit plus bas augmente le taux de désabonnement ? » et ainsi de suite. Nous pouvons regrouper et résumer l’ensemble des données de différentes manières pour obtenir plus d’informations sur les attributs des clients. Nous nous pencherons sur ces questions dans le prochain ensemble de données. Pour l’instant, commençons à penser à prédire quels clients vont se désabonner.

Dans ce cas, nous pouvons étiqueter notre variable cible (réponse) qui est le désabonnement. Cela signifie que nous pouvons créer un modèle de classification et exécuter différentes méthodes d’algorithme telles que l’arbre de décision, Random Forest, la régression logistique ou les machines à vecteurs de support. Quand il s’agit de modèles d’apprentissage automatique, nous recherchons deux conditions principales ; 1- Distribution normale de l’ensemble de caractéristiques, 2- Même échelle de l’ensemble de caractéristiques.

Dans cet ensemble de données, nous pouvons sélectionner le score de crédit, la géographie, le sexe, l’âge, l’ancienneté et les attributs de salaire estimé comme l’ensemble de caractéristiques et le churn comme la variable cible.

Nous devons nous assurer de mettre à jour les variables catégorielles en variables numériques car les techniques d’apprentissage automatique que nous appliquerons nécessitent que tous les attributs des clients soient numériques.

Nous pouvons en outre diviser aléatoirement notre jeu de données en jeu de données d’entraînement et de test afin d’ajuster notre modèle avec le jeu de données d’entraînement et de tester les prédictions avec le jeu de données de test. L’idée est d’entraîner le modèle avec l’ensemble de données d’entraînement et de tester la prédiction avec l’ensemble de données de test. Si nous n’avons pas utilisé les ensembles de données d’entraînement et de test et que nous avons utilisé l’ensemble du jeu de données à la place, l’algorithme ne fera que des prédictions précises avec notre jeu de données et échouera avec toutes les nouvelles données qui lui seront fournies.

Dans ce jeu de données, utilisons DecisionTreeClassifier et RandomForestClassifier pour créer notre modèle et notre prédiction, puis évaluons les deux pour voir lequel est le meilleur.

Based on the metrics evaluations, alors que 73% des prédictions seraient exactes avec le modèle Decision Classifier, 82% des prédictions seraient exactes avec le RandomForestClassifier. Nous préférerions utiliser Random Forest dans ce cas.

Lorsque nous regardons la distribution des clients qui churnent vs qui ne churnent pas, nous voyons que les données sont impartiales. Cela signifie que nous ne pouvons pas nous fier uniquement aux scores de la métrique de précision pour les modèles de prédiction. Regardons l’ensemble de données des clients pour voir si nous pouvons faire une meilleure analyse et des modèles de prédiction.

Cette fois-ci, nous regardons une entreprise de télécommunication et ses attributs de clients existants tels que leur plan actuel, les frais, la localisation en termes d’état, la quantité d’appels au service client, la longueur du compte et le churn.

Il n’y a pas de données manquantes dans l’ensemble de données et les types de données sont corrects. Regardons les valeurs catégorielles et leurs valeurs uniques.

Lorsque nous regardons l’état et le taux de résiliation, nous voyons que la Californie et le New Jersey sont les deux premiers états avec le taux de résiliation le plus élevé.

Nous voyons également que le taux de désabonnement est plus élevé avec les clients du plan international et plus faible avec les clients qui ont un plan de messagerie vocale.

Il y a beaucoup plus de clients qui restent avec la société que de clients qui quittent la société. Si vous vous souvenez de l’analyse précédente avec la société de cartes de crédit, cela signifie des déséquilibres dans les données et a un impact sur le développement du modèle de prédiction. (Un aspect important que nous n’avons pas mentionné précédemment est que nous n’avons aucune utilité pour les identifiants uniques tels que le numéro de téléphone, l’identifiant du client ou le numéro de compte pour la sélection des caractéristiques.)

Un mauvais service client est l’une des raisons bien connues de la désaffection des clients. Dans notre cas, nous pouvons voir une forte relation linéaire positive avec le montant des appels au service client et le taux de désabonnement.

Avec cet ensemble de données, développons plusieurs modèles différents et évaluons-les pour voir lequel serait le mieux adapté pour résoudre notre problème commercial de désabonnement des clients.

Similairement à l’ensemble de données de clients de cartes de crédit précédent, nous devons effectuer un prétraitement et mettre à jour les variables catégorielles en variables numériques afin de créer notre modèle.

Maintenant, nous sommes prêts à diviser l’ensemble de données pour former/tester et créer nos modèles. Commençons par Random Forest.

Notre score de précision pour le modèle Random Forest que nous avons créé pour prédire le churn des clients de la société de télécommunication est de 0.89. Cependant, nous devrions regarder analyser cela plus loin car les données sont impartiales.

Nous pouvons examiner des métriques d’évaluation supplémentaires, telles que la matrice de validation croisée qui nous donnera la quantité de vrais positifs, faux positifs, vrais et faux négatifs, précision, rappel et score f1. Nous pouvons également voir ce que nous pouvons faire pour améliorer le modèle en regardant quelles caractéristiques contribuent le plus à la prédiction.

Le modèle prédit 560 vrais négatifs, 13 faux positifs, 54 faux négatifs, 40 vrais positifs.

Lorsque nous évaluons le modèle avec le classificateur Random Forest, nous constatons que :

Le score de précision est de 0.729

Le score de rappel est de 0,372

La courbe ROC est la suivante :

Le score UAC (l’aire sous la courbe ROC) est de 0.83 et le score f1 est de 0,49.

Nous découvrons également que, pour obtenir les meilleures performances du modèle, nous devons fixer l’estimateur n à 30. (Actuellement, notre modèle utilise 100)

Nous pouvons en outre examiner l’importance des caractéristiques pour voir quelles caractéristiques ont le plus d’impact sur la prédiction.

En fonction de l’importance des caractéristiques, nous pouvons certainement supprimer l’état de notre modèle.

Créons un autre modèle en utilisant la machine à vecteurs de support.

Lorsque nous créons le modèle et que nous regardons la précision, nous voyons déjà que le score de précision pour le Support Vector Machine est inférieur à la classification Random Forest.

Lorsque nous créons le modèle et que nous regardons la précision, nous voyons déjà que le score de précision pour la machine à vecteurs de support est inférieur à la classification Random Forest.

Le modèle prédit 567 vrais négatifs, 6 faux positifs, 83 faux négatifs, 11 vrais positifs. Même si le nombre de faux positifs a légèrement diminué, les vrais positifs sont nettement moins nombreux par rapport à RandomForestClassifier.

Les scores de précision (0,647) et de rappel (0,11) sont tous deux bien inférieurs à ceux du Classificateur aléatoire. L’aire sous la courbe (auc) est de 0,83, ce qui est identique à celle du classificateur Random Forest. La meilleure option pour le degré de la machine à vecteurs de support est 1. (qui est actuellement défini comme la valeur par défaut de 3).

Selon les deux modèles prédictifs que nous avons créés, le premier que nous avons créé avec le classificateur Random Forest serait un meilleur choix. Nous pouvons également régler ce modèle et l’améliorer en mettant à jour le n_estimateur et en supprimant la variable d’état de l’ensemble de caractéristiques pour une meilleure prédiction.

Avec les connaissances existantes des consommateurs à travers les données, les entreprises peuvent prédire les besoins et les problèmes possibles des clients, définir des stratégies et des solutions appropriées contre eux, répondre à leurs attentes et conserver leur activité. Sur la base de l’analyse prédictive et de la modélisation, les entreprises peuvent concentrer leur attention sur une approche ciblée en segmentant et en offrant des solutions personnalisées. L’analyse de la manière et du moment où le désabonnement se produit dans le cycle de vie du client avec les services permettra à l’entreprise de mettre en place des mesures plus préventives.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.