Analys av kundbortfall

maj 29, 2021
admin

Kort översikt över analys och förutsägelse av kundbortfall med hjälp av beslutsträdsklassificering.

Kundbortfall är ett av de viktigaste och mest utmanande problemen för företag som kreditkortsföretag, kabeltjänsteleverantörer, SASS och telekommunikationsföretag över hela världen. Även om det inte är det roligaste att titta på kan mätningar av kundbortfall hjälpa företag att förbättra kundbevaringen.

Customer Churn Photo by freestocks on Unsplash

Vi kan klassificera kundbortfall (även känt som kundbortfall) genom att gruppera dem i olika kategorier. Contractual Churn, som gäller för företag som kabelbolag och SAAS-tjänsteleverantörer, är när kunderna bestämmer sig för att inte fortsätta med sina utlösta avtal. Voluntary Churn, å andra sidan, är när en kund bestämmer sig för att säga upp sin befintliga tjänst, vilket kan vara tillämpligt för företag som förbetalda mobiltelefoner och leverantörer av streamingabonnemang. Det finns också tillfällen då konsumenter lämnar ett eventuellt köp utan att slutföra transaktionen. Vi kan kategorisera dessa fall som icke avtalsenlig churn, vilket är tillämpligt för företag som är beroende av butikslokaler, nätbutiker eller lånetjänster på nätet. Och slutligen finns det ofrivillig churn, till exempel när en kund inte kan betala sin kreditkortsräkning och inte längre stannar kvar hos kreditkortsföretaget.

Redovisningen av kundbortfall kan variera och skulle kräva domänkunskap för att kunna definieras korrekt, men några vanliga är; bristande användning av produkten, dålig service och bättre pris någon annanstans. Oavsett vilka resonemang som kan vara specifika för olika branscher är det en sak som gäller för alla områden, nämligen att det kostar mer att skaffa nya kunder än att behålla befintliga kunder. Detta har en direkt inverkan på driftskostnader och marknadsföringsbudgetar inom företaget.

Foto av rupixen.com on Unsplash

På grund av den stora betydelsen av kundbortfall inom ett företag investerar intressenterna mer tid och kraft i att ta reda på resonemanget inom sina organisationer, hur de kan förutsäga exakt vilken typ av befintliga kunder som kan sluta göra affärer med dem och vad de kan göra för att minimera kundbortfallet.

Det bästa sättet att undvika kundavgång är att känna sina kunder, och det bästa sättet att känna sina kunder är genom historiska och nya kunddata.

I den här artikeln kommer vi att gå igenom några konsumentdata och se hur vi kan utnyttja datainsikter och prediktiv modellering för att förbättra kundbehovet. I vår analys kommer vi att använda Python och olika algoritmer för maskininlärning för förutsägelser.

Vår första kunddatamängd kommer från ett kreditkortsföretag, där vi kan granska kundattribut som kön, ålder, anställningstid, saldo, antal produkter de prenumererar på, deras uppskattade lön och om de har avslutat prenumerationen eller inte.

Vi kan se vår datauppsättning, men vi vill också försäkra oss om att datan är ren, så som en del av rensningsprocessen tittar vi på saknade värden och datatyper.

När vi tittar på de statistiska insikterna, ser vi att den genomsnittliga åldern på våra kunder är 39 år, den genomsnittliga månaden som kunden har varit medlem är 5 och den uppskattade genomsnittliga lönen är 100 000 kronor.

När vi tittar på den uppskattade lönens könsrelaterade och geografiska fördelning ser vi att den uppskattade genomsnittslönen för manliga kunder är högre än för kvinnliga kunder i Frankrike och Spanien, men i Tyskland är kvinnliga kunders uppskattade genomsnittslön högre.

När vi tittar på sambandet mellan ålder och kreditpoäng är det linjära sambandet mycket svagt för att tydligt definiera korrelationen.

Baserat på vår grundläggande utforskande analys kan vi definiera de viktiga kundattributen som kan ge oss de bästa insikterna för att förutsäga vilken typ av kunder som kan churn. Vi kan fortsätta denna analys för att besvara några grundläggande frågor som: ”Ökar lägre beräknad lön churn?”. Eller: ”Ökar lägre kreditvärdighet till att man slutar att använda sig av den?” och så vidare. Vi kan gruppera och sammanfatta datasetet på olika sätt för att få fler insikter om kundernas attribut. Vi kommer att dyka ner i fler av dessa i nästa dataset. För tillfället kan vi börja tänka på att förutsäga vilka kunder som kommer att sluta.

I det här fallet kan vi märka vår målvariabel (svarsvariabel) som är churn. Detta innebär att vi kan skapa en klassificeringsmodell och använda olika algoritmmetoder som Decision Tree, Random Forest, Logistic Regression eller Support Vector Machines. När det gäller modeller för maskininlärning söker vi efter två huvudvillkor: 1- Normal fördelning av funktionsuppsättningen, 2- Samma skala för funktionsuppsättningen.

I det här datasetet kan vi välja kreditpoäng, geografi, kön, ålder, anställningstid och beräknad lön som funktionsuppsättning och churn som målvariabel.

Vi måste se till att vi uppdaterar de kategoriska variablerna till numeriska variabler, eftersom de tekniker för maskininlärning som vi kommer att tillämpa kräver att alla kunders attribut är numeriska.

Vi kan vidare slumpmässigt dela upp vårt dataset i ett tränings- och ett testdataset för att anpassa vår modell till träningsdatasetet och testa förutsägelserna med testdatasetet. Tanken är att träna modellen med träningsdatasetet och testa förutsägelsen med testdatasetet. Om vi inte använder tränings- och testdataset och istället använder hela datasetetet kommer algoritmen endast att göra korrekta förutsägelser med vårt dataset och misslyckas med alla nya data som matas in till den.

I det här datasetetet använder vi DecisionTreeClassifier och RandomForestClassifier för att skapa vår modell och förutsägelse, och utvärderar dem båda för att se vilken som är bäst.

Based on the metrics evaluations, skulle 73 % av förutsägelserna vara korrekta med beslutsklassificeringsmodellen, medan 82 % av förutsägelserna skulle vara korrekta med RandomForest-klassificeringsmodellen. Vi skulle föredra att använda Random Forest i det här fallet.

När vi tittar på fördelningen av kunder som churn vs. inte churn ser vi att data är opartiska. Detta innebär att vi inte bara kan förlita oss på noggrannhetsmetriska poäng för prediktionsmodellerna. Låt oss titta på den andra kunddatamängden för att se om vi kan göra bättre analyser och prediktionsmodeller.

Den här gången tittar vi på ett telekommunikationsföretag och dess befintliga kundattribut, t.ex. deras nuvarande plan, avgifter, plats i form av delstat, antal kundtjänstsamtal, kontolängd och churn.

Det finns inga saknade uppgifter i datasetetet och datatyperna är korrekta. Låt oss titta på de kategoriska värdena och deras unika värden.

När vi tittar på delstater och churn ser vi att Kalifornien och New Jersey är de två stater som har den högsta churn-graden.

Vi ser också att churn rate är högre hos kunderna med internationell plan och lägre hos kunderna som har röstbrevlåneplan.

Det finns mycket fler kunder som stannar kvar hos företaget än som lämnar företaget som kund. Om du kommer ihåg den tidigare analysen med kreditkortsföretaget innebär detta obalanser i data och har en inverkan på utvecklingen av prediktionsmodellen. (En viktig aspekt som vi inte nämnde tidigare är att vi inte har någon användning för unika identifierare som telefonnummer, kund-id eller kontonummer för val av funktioner.)

Dålig kundservice är en av de välkända orsakerna till kundflykt. I vårt fall kan vi se ett starkt positivt linjärt samband med antalet kundtjänstsamtal och churn rate.

Med denna datauppsättning kan vi utveckla flera olika modeller och utvärdera dem för att se vilken modell som skulle passa bäst för att lösa vårt affärsproblem med kundbortfall.

I likhet med det tidigare datamaterialet för kreditkortskunder måste vi utföra en förbehandling och uppdatera de kategoriska variablerna till numeriska variabler för att skapa vår modell.

Nu är vi redo att dela upp datasetet till träning/test och skapa våra modeller. Låt oss börja med Random Forest.

Vår noggrannhet för Random Forest-modellen som vi skapade för att förutsäga kundbortfallet hos telekommunikationsföretagets kunder är 0.89. Vi bör dock analysera detta ytterligare eftersom uppgifterna är opartiska.

Vi kan granska ytterligare utvärderingsmått, såsom korsvalideringsmatris som ger oss mängden sanna positiva, falska positiva, sanna och falska negativa, precision, återkallelse och f1-poäng. Vi kan också se vad vi kan göra för att förbättra modellen genom att titta på vilka funktioner som bidrar mest till förutsägelsen.

Modellen förutspår 560 sanna negativa, 13 falska positiva, 54 falska negativa, 40 sanna positiva.

När vi utvärderar modellen med Random Forest Classifier ser vi att:

Precision score is 0.729

Rekallpoäng är 0,372

ROC-kurvan är följande:

AUC-poäng (ytan under roc-kurvan) är 0.83 och f1-värdet är 0,49.

Vi får också reda på att för att få bästa resultat av modellen måste vi sätta n-skattaren till 30. (För närvarande använder vår modell 100)

Vi kan vidare titta på funktionernas betydelse för att se vilka funktioner som har störst inverkan på förutsägelsen.

Bäst på funktionens betydelse kan vi definitivt ta bort state från vår modell.

Låt oss skapa en annan modell med hjälp av Support Vector Machine.

När vi skapar modellen och tittar på noggrannheten ser vi redan att noggrannhetsresultatet för Support Vector Machine är lägre än Random Forest Classification.

När vi skapar modellen och tittar på noggrannheten ser vi redan att noggrannhetspoängen för stödvektormaskin är lägre än för Random Forest-klassificering.

Modellen förutspår 567 True Negatives, 6 False Positives, 83 False Negatives, 11 True Positives. Även om antalet falska positiva resultat minskade något är de sanna positiva resultaten betydligt färre jämfört med RandomForestClassifier.

Både precisionspoängen (0,647) och recallspoängen (0,11) är mycket lägre än RandomForest Classifier. Arean under roc-kurvan (auc) är 0,83, vilket är samma som för Random Forest Classifier. Det bästa alternativet för Support Vector Machine degree är 1. (vilket för närvarande är inställt som standardvärdet 3).

Baserat på de två prediktiva modellerna vi skapade skulle den första vi skapade med Random Forest Classifier vara ett bättre val. Vi kan också justera den här modellen och förbättra den genom att uppdatera n_estimatorn och ta bort tillståndsvariabeln från funktionsuppsättningen för bättre förutsägelser.

Med de befintliga konsumentinsikterna genom data kan företag förutsäga kundernas eventuella behov och problem, definiera lämpliga strategier och lösningar mot dem, uppfylla deras förväntningar och behålla deras affärer. Baserat på den prediktiva analysen och modelleringen kan företagen fokusera sin uppmärksamhet på ett målinriktat tillvägagångssätt genom att segmentera och erbjuda dem skräddarsydda lösningar. Genom att analysera hur och när kundbytet sker i kundernas livscykel med tjänsterna kan företaget vidta mer förebyggande åtgärder.

Lämna ett svar

Din e-postadress kommer inte publiceras.