Analys av kundbortfall
Kort översikt över analys och förutsägelse av kundbortfall med hjälp av beslutsträdsklassificering.
Kundbortfall är ett av de viktigaste och mest utmanande problemen för företag som kreditkortsföretag, kabeltjänsteleverantörer, SASS och telekommunikationsföretag över hela världen. Även om det inte är det roligaste att titta på kan mätningar av kundbortfall hjälpa företag att förbättra kundbevaringen.
Vi kan klassificera kundbortfall (även känt som kundbortfall) genom att gruppera dem i olika kategorier. Contractual Churn, som gäller för företag som kabelbolag och SAAS-tjänsteleverantörer, är när kunderna bestämmer sig för att inte fortsätta med sina utlösta avtal. Voluntary Churn, å andra sidan, är när en kund bestämmer sig för att säga upp sin befintliga tjänst, vilket kan vara tillämpligt för företag som förbetalda mobiltelefoner och leverantörer av streamingabonnemang. Det finns också tillfällen då konsumenter lämnar ett eventuellt köp utan att slutföra transaktionen. Vi kan kategorisera dessa fall som icke avtalsenlig churn, vilket är tillämpligt för företag som är beroende av butikslokaler, nätbutiker eller lånetjänster på nätet. Och slutligen finns det ofrivillig churn, till exempel när en kund inte kan betala sin kreditkortsräkning och inte längre stannar kvar hos kreditkortsföretaget.
Redovisningen av kundbortfall kan variera och skulle kräva domänkunskap för att kunna definieras korrekt, men några vanliga är; bristande användning av produkten, dålig service och bättre pris någon annanstans. Oavsett vilka resonemang som kan vara specifika för olika branscher är det en sak som gäller för alla områden, nämligen att det kostar mer att skaffa nya kunder än att behålla befintliga kunder. Detta har en direkt inverkan på driftskostnader och marknadsföringsbudgetar inom företaget.
På grund av den stora betydelsen av kundbortfall inom ett företag investerar intressenterna mer tid och kraft i att ta reda på resonemanget inom sina organisationer, hur de kan förutsäga exakt vilken typ av befintliga kunder som kan sluta göra affärer med dem och vad de kan göra för att minimera kundbortfallet.
Det bästa sättet att undvika kundavgång är att känna sina kunder, och det bästa sättet att känna sina kunder är genom historiska och nya kunddata.
I den här artikeln kommer vi att gå igenom några konsumentdata och se hur vi kan utnyttja datainsikter och prediktiv modellering för att förbättra kundbehovet. I vår analys kommer vi att använda Python och olika algoritmer för maskininlärning för förutsägelser.
Vår första kunddatamängd kommer från ett kreditkortsföretag, där vi kan granska kundattribut som kön, ålder, anställningstid, saldo, antal produkter de prenumererar på, deras uppskattade lön och om de har avslutat prenumerationen eller inte.
Vi kan se vår datauppsättning, men vi vill också försäkra oss om att datan är ren, så som en del av rensningsprocessen tittar vi på saknade värden och datatyper.
När vi tittar på de statistiska insikterna, ser vi att den genomsnittliga åldern på våra kunder är 39 år, den genomsnittliga månaden som kunden har varit medlem är 5 och den uppskattade genomsnittliga lönen är 100 000 kronor.
När vi tittar på den uppskattade lönens könsrelaterade och geografiska fördelning ser vi att den uppskattade genomsnittslönen för manliga kunder är högre än för kvinnliga kunder i Frankrike och Spanien, men i Tyskland är kvinnliga kunders uppskattade genomsnittslön högre.
När vi tittar på sambandet mellan ålder och kreditpoäng är det linjära sambandet mycket svagt för att tydligt definiera korrelationen.
Med denna datauppsättning kan vi utveckla flera olika modeller och utvärdera dem för att se vilken modell som skulle passa bäst för att lösa vårt affärsproblem med kundbortfall.
I likhet med det tidigare datamaterialet för kreditkortskunder måste vi utföra en förbehandling och uppdatera de kategoriska variablerna till numeriska variabler för att skapa vår modell.
Nu är vi redo att dela upp datasetet till träning/test och skapa våra modeller. Låt oss börja med Random Forest.
Vår noggrannhet för Random Forest-modellen som vi skapade för att förutsäga kundbortfallet hos telekommunikationsföretagets kunder är 0.89. Vi bör dock analysera detta ytterligare eftersom uppgifterna är opartiska.
Vi kan granska ytterligare utvärderingsmått, såsom korsvalideringsmatris som ger oss mängden sanna positiva, falska positiva, sanna och falska negativa, precision, återkallelse och f1-poäng. Vi kan också se vad vi kan göra för att förbättra modellen genom att titta på vilka funktioner som bidrar mest till förutsägelsen.
Modellen förutspår 560 sanna negativa, 13 falska positiva, 54 falska negativa, 40 sanna positiva.
När vi utvärderar modellen med Random Forest Classifier ser vi att:
Precision score is 0.729
Rekallpoäng är 0,372
ROC-kurvan är följande:
AUC-poäng (ytan under roc-kurvan) är 0.83 och f1-värdet är 0,49.
Vi får också reda på att för att få bästa resultat av modellen måste vi sätta n-skattaren till 30. (För närvarande använder vår modell 100)
Vi kan vidare titta på funktionernas betydelse för att se vilka funktioner som har störst inverkan på förutsägelsen.
Bäst på funktionens betydelse kan vi definitivt ta bort state från vår modell.
Låt oss skapa en annan modell med hjälp av Support Vector Machine.
När vi skapar modellen och tittar på noggrannheten ser vi redan att noggrannhetsresultatet för Support Vector Machine är lägre än Random Forest Classification.
När vi skapar modellen och tittar på noggrannheten ser vi redan att noggrannhetspoängen för stödvektormaskin är lägre än för Random Forest-klassificering.
Modellen förutspår 567 True Negatives, 6 False Positives, 83 False Negatives, 11 True Positives. Även om antalet falska positiva resultat minskade något är de sanna positiva resultaten betydligt färre jämfört med RandomForestClassifier.
Både precisionspoängen (0,647) och recallspoängen (0,11) är mycket lägre än RandomForest Classifier. Arean under roc-kurvan (auc) är 0,83, vilket är samma som för Random Forest Classifier. Det bästa alternativet för Support Vector Machine degree är 1. (vilket för närvarande är inställt som standardvärdet 3).
Baserat på de två prediktiva modellerna vi skapade skulle den första vi skapade med Random Forest Classifier vara ett bättre val. Vi kan också justera den här modellen och förbättra den genom att uppdatera n_estimatorn och ta bort tillståndsvariabeln från funktionsuppsättningen för bättre förutsägelser.
Med de befintliga konsumentinsikterna genom data kan företag förutsäga kundernas eventuella behov och problem, definiera lämpliga strategier och lösningar mot dem, uppfylla deras förväntningar och behålla deras affärer. Baserat på den prediktiva analysen och modelleringen kan företagen fokusera sin uppmärksamhet på ett målinriktat tillvägagångssätt genom att segmentera och erbjuda dem skräddarsydda lösningar. Genom att analysera hur och när kundbytet sker i kundernas livscykel med tjänsterna kan företaget vidta mer förebyggande åtgärder.