Kundenabwanderungsanalyse

Mai 29, 2021
admin

Kurzer Überblick über Kundenabwanderungsanalyse und -vorhersage mit Entscheidungsbaum-Klassifikator.

Kundenabwanderung ist eines der wichtigsten und schwierigsten Probleme für Unternehmen wie Kreditkartenunternehmen, Kabeldienstleister, SASS und Telekommunikationsunternehmen weltweit. Auch wenn der Blick auf die Kundenabwanderung nicht gerade ein Vergnügen ist, können Kennzahlen zur Kundenabwanderung Unternehmen helfen, die Kundenbindung zu verbessern.

Kundenabwanderung Foto von freestocks auf Unsplash

Wir können die Kundenabwanderung (auch als Kundenschwund bekannt) in verschiedene Kategorien einteilen. Vertragliche Abwanderung, die für Unternehmen wie Kabelgesellschaften und Anbieter von SAAS-Diensten gilt, liegt vor, wenn Kunden sich entscheiden, ihren abgelaufenen Vertrag nicht weiterzuführen. Von freiwilliger Abwanderung spricht man hingegen, wenn ein Kunde beschließt, seinen bestehenden Dienst zu kündigen, was bei Unternehmen wie Prepaid-Handys und Streaming-Anbietern der Fall sein kann. Es gibt auch Fälle, in denen Verbraucher einen möglichen Kauf abbrechen, ohne die Transaktion abzuschließen. Wir können diese Fälle als nichtvertragliche Abwanderung bezeichnen, die für Unternehmen gilt, die auf Einzelhandelsgeschäfte, Online-Shops oder Online-Leihdienste angewiesen sind. Und schließlich gibt es die unfreiwillige Abwanderung, beispielsweise wenn ein Kunde seine Kreditkartenrechnung nicht bezahlen kann und nicht mehr bei der Kreditkartengesellschaft bleibt.

Die Gründe für die Abwanderung von Kunden können variieren und erfordern Fachwissen, um sie richtig zu definieren, jedoch sind einige häufig anzutreffende Gründe: mangelnde Nutzung des Produkts, schlechter Service und bessere Preise anderswo. Unabhängig von den Gründen, die für verschiedene Branchen spezifisch sein können, gilt für alle Bereiche, dass es mehr kostet, neue Kunden zu gewinnen als bestehende zu halten. Dies wirkt sich direkt auf die Betriebskosten und Marketingbudgets im Unternehmen aus.

Foto von rupixen.com on Unsplash

Aufgrund der großen Bedeutung der Kundenabwanderung innerhalb eines Unternehmens investieren die Beteiligten mehr Zeit und Mühe, um die Gründe innerhalb ihrer Organisationen herauszufinden und herauszufinden, wie sie genau vorhersagen können, welche Art von Bestandskunden die Geschäftsbeziehung mit ihnen beenden können und was sie tun können, um die Kundenabwanderung zu minimieren.

Der beste Weg, Kundenabwanderung zu vermeiden, ist, seine Kunden zu kennen, und der beste Weg, seine Kunden zu kennen, sind historische und neue Kundendaten.

In diesem Artikel werden wir einige Verbraucherdaten untersuchen und sehen, wie wir Dateneinblicke und prädiktive Modellierung nutzen können, um die Kundenbindung zu verbessern. In unserer Analyse werden wir Python und verschiedene Algorithmen des maschinellen Lernens für die Vorhersage verwenden.

Unser erster Kundendatensatz stammt von einem Kreditkartenunternehmen, bei dem wir Kundenattribute wie Geschlecht, Alter, Vertragsdauer, Guthaben, Anzahl der abonnierten Produkte, geschätztes Gehalt und die Frage, ob sie das Abonnement gekündigt haben, überprüfen können.

Wir können unseren Datensatz sehen, aber wir wollen auch sicherstellen, dass die Daten sauber sind, also schauen wir uns als Teil des Bereinigungsprozesses fehlende Werte und Datentypen an.

Wenn wir uns die statistischen Erkenntnisse ansehen, sehen wir, dass das Durchschnittsalter unserer Kunden 39 Jahre beträgt, der durchschnittliche Monat, in dem der Kunde Mitglied ist, 5 und das geschätzte Durchschnittsgehalt 100.000.

Wenn wir uns die geschlechtsspezifische und geografische Verteilung des geschätzten Gehalts ansehen, sehen wir, dass das geschätzte Durchschnittsgehalt der männlichen Kunden in Frankreich und Spanien höher ist als das der weiblichen, aber in Deutschland ist das geschätzte Durchschnittsgehalt der weiblichen Kunden höher.

Wenn wir die Beziehung zwischen Alter und Kreditwürdigkeit betrachten, ist die lineare Beziehung sehr schwach, um eine klare Korrelation zu definieren.

Auf der Grundlage unserer grundlegenden explorativen Analyse können wir die wichtigen Kundenattribute definieren, die uns den besten Einblick geben, um die Art von Kunden vorherzusagen, die abwandern können. Wir können diese Analyse fortsetzen, um einige grundlegende Fragen zu beantworten, wie z. B. „Erhöht ein niedrigeres geschätztes Gehalt die Abwanderung?“ Oder „Erhöht eine niedrigere Kreditwürdigkeit die Abwanderung?“ usw. Wir können den Datensatz auf verschiedene Weise gruppieren und zusammenfassen, um weitere Erkenntnisse über Kundenattribute zu gewinnen. Im nächsten Datensatz werden wir mehr darüber erfahren. Lassen Sie uns zunächst darüber nachdenken, wie wir vorhersagen können, welche Kunden abwandern werden.

In diesem Fall können wir unsere Zielvariable (Antwortvariable), die Abwanderung, benennen. Das bedeutet, dass wir ein Klassifizierungsmodell erstellen und verschiedene Algorithmen wie Entscheidungsbaum, Random Forest, logistische Regression oder Support Vector Machines anwenden können. Wenn es um Modelle für maschinelles Lernen geht, suchen wir nach zwei Hauptbedingungen: 1. Normalverteilung des Merkmalsatzes, 2. gleiche Skala des Merkmalsatzes.

In diesem Datensatz können wir die Attribute Kreditwürdigkeit, Geografie, Geschlecht, Alter, Betriebszugehörigkeit und geschätztes Gehalt als Merkmalsatz und Abwanderung als Zielvariable auswählen.

Wir müssen sicherstellen, dass wir die kategorischen Variablen zu numerischen Variablen aktualisieren, da die maschinellen Lernverfahren, die wir anwenden werden, erfordern, dass alle Kundenattribute numerisch sind.

Wir können unseren Datensatz außerdem nach dem Zufallsprinzip in einen Trainings- und einen Testdatensatz aufteilen, um unser Modell mit dem Trainingsdatensatz anzupassen und die Vorhersagen mit dem Testdatensatz zu testen. Die Idee ist, das Modell mit dem Trainingsdatensatz zu trainieren und die Vorhersage mit dem Testdatensatz zu testen. Wenn wir keine Trainings- und Testdatensätze verwenden und stattdessen den gesamten Datensatz verwenden, wird der Algorithmus nur mit unserem Datensatz genaue Vorhersagen machen und mit allen neuen Daten, die ihm zugeführt werden, scheitern.

Verwenden wir in diesem Datensatz den DecisionTreeClassifier und den RandomForestClassifier, um unser Modell und unsere Vorhersage zu erstellen, und bewerten wir beide, um zu sehen, welcher besser ist.

Based on the metrics evaluations, während 73 % der Vorhersagen mit dem Decision Classifier-Modell zutreffen würden, wären 82 % der Vorhersagen mit dem RandomForest-Classifier zutreffend. Wir würden in diesem Fall Random Forest vorziehen.

Wenn wir uns die Verteilung der Kunden ansehen, die abwandern bzw. nicht abwandern, sehen wir, dass die Daten unparteiisch sind. Das bedeutet, dass wir uns bei den Vorhersagemodellen nicht nur auf die Ergebnisse der Genauigkeitsmetrik verlassen können. Schauen wir uns den zweiten Kundendatensatz an, um zu sehen, ob wir bessere Analysen und Prognosemodelle erstellen können.

Diesmal betrachten wir ein Telekommunikationsunternehmen und seine bestehenden Kundenattribute wie den aktuellen Tarif, die Gebühren, den Standort in Bezug auf das Bundesland, die Anzahl der Kundendienstanrufe, die Kontolänge und die Abwanderung.

Es gibt keine fehlenden Daten im Datensatz und die Datentypen sind korrekt. Schauen wir uns die kategorischen Werte und ihre eindeutigen Werte an.

Wenn wir uns den Staat und die Abwanderung anschauen, sehen wir, dass Kalifornien und New Jersey die Staaten mit der höchsten Abwanderungsrate sind.

Wir sehen auch, dass die Abwanderungsrate bei den Kunden mit internationalem Tarif höher und bei den Kunden mit Voicemail-Tarif niedriger ist.

Es gibt viel mehr Kunden, die dem Unternehmen treu bleiben, als das Unternehmen als Kunden verlassen. Wenn Sie sich an die frühere Analyse mit dem Kreditkartenunternehmen erinnern, bedeutet dies Ungleichgewichte in den Daten und hat Auswirkungen auf die Entwicklung des Vorhersagemodells. (Ein wichtiger Aspekt, den wir zuvor nicht erwähnt haben, ist, dass wir keine eindeutigen Identifikatoren wie Telefonnummer, Kundennummer oder Kontonummer für die Merkmalsauswahl verwenden.)

Schlechter Kundenservice ist einer der bekannten Gründe für Kundenabwanderung. In unserem Fall sehen wir eine starke positive lineare Beziehung zwischen der Anzahl der Kundendienstanrufe und der Abwanderungsrate.

Mit diesem Datensatz können wir mehrere verschiedene Modelle entwickeln und auswerten, um zu sehen, welches am besten geeignet ist, unser Geschäftsproblem der Kundenabwanderung zu lösen.

Ähnlich wie bei dem früheren Kreditkarten-Kundendatensatz müssen wir eine Vorverarbeitung durchführen und die kategorischen Variablen in numerische Variablen umwandeln, um unser Modell zu erstellen.

Nun sind wir bereit, den Datensatz in Training/Test aufzuteilen und unsere Modelle zu erstellen. Beginnen wir mit Random Forest.

Unsere Trefferquote für das von uns erstellte Random-Forest-Modell zur Vorhersage der Abwanderung von Kunden des Telekommunikationsunternehmens beträgt 0.89. Wir sollten dies jedoch weiter analysieren, da die Daten unparteiisch sind.

Wir können zusätzliche Bewertungsmetriken überprüfen, wie die Kreuzvalidierungsmatrix, die uns die Anzahl der wahren Positiven, falschen Positiven, wahren und falschen Negativen, die Präzision, den Rückruf und den f1-Score liefert. Wir können auch sehen, was wir tun können, um das Modell zu verbessern, indem wir uns ansehen, welche Merkmale am meisten zur Vorhersage beitragen.

Das Modell sagt 560 Wahr-Negative, 13 Falsch-Positive, 54 Falsch-Negative und 40 Wahr-Positive voraus.

Wenn wir das Modell mit dem Random Forest Classifier auswerten, sehen wir, dass:

Präzisionswert ist 0.729

Recall-Score ist 0.372

ROC-Kurve ist wie folgt:

AUC-Score (die Fläche unter der roc-Kurve) ist 0.83 und der f1-Wert 0,49.

Wir finden auch heraus, dass wir den n-Schätzer auf 30 setzen müssen, um die beste Leistung des Modells zu erhalten. (Derzeit verwendet unser Modell 100)

Wir können uns die Bedeutung der Merkmale ansehen, um festzustellen, welche Merkmale den größten Einfluss auf die Vorhersage haben.

Auf Grund der Merkmalsbedeutung können wir definitiv den Zustand aus unserem Modell entfernen.

Lassen Sie uns ein weiteres Modell mit Support Vector Machine erstellen.

Wenn wir das Modell erstellen und uns die Genauigkeit ansehen, sehen wir bereits, dass die Genauigkeit der Support Vector Machine niedriger ist als die der Random Forest Classification.

Wenn wir das Modell erstellen und die Genauigkeit betrachten, sehen wir bereits, dass die Genauigkeitsbewertung für Support Vector Machine niedriger ist als Random Forest Classification.

Das Modell sagt 567 Wahr-Negative, 6 Falsch-Positive, 83 Falsch-Negative und 11 Wahr-Positive voraus. Obwohl die Anzahl der False Positives leicht gesunken ist, sind die True Positives im Vergleich zu RandomForestClassifier deutlich geringer.

Sowohl der Precision Score (0,647) als auch der Recall Score (0,11) sind deutlich niedriger als beim Random Classifier. Die Fläche unter der ROC-Kurve (auc) beträgt 0,83, was dem Wert des Random Forest Classifier entspricht. Die beste Option für den Grad der Support Vector Machine ist 1 (der derzeit auf den Standardwert 3 eingestellt ist).

Auf der Grundlage der beiden von uns erstellten Vorhersagemodelle wäre das erste, das wir mit dem Random Forest Classifier erstellt haben, die bessere Wahl. Wir können dieses Modell auch abstimmen und verbessern, indem wir den n_estimator aktualisieren und die Zustandsvariable aus dem Feature-Set entfernen, um eine bessere Vorhersage zu erreichen.

Mit den vorhandenen Verbrauchererkenntnissen durch Daten können Unternehmen die möglichen Bedürfnisse und Probleme der Kunden vorhersagen, geeignete Strategien und Lösungen für sie definieren, ihre Erwartungen erfüllen und ihr Geschäft behalten. Auf der Grundlage der prädiktiven Analyse und Modellierung können Unternehmen ihre Aufmerksamkeit auf gezielte Ansätze richten, indem sie Kunden segmentieren und ihnen maßgeschneiderte Lösungen anbieten. Die Analyse, wie und wann die Abwanderung im Lebenszyklus des Kunden mit den Diensten erfolgt, ermöglicht es dem Unternehmen, präventive Maßnahmen zu ergreifen.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.