Az ügyfelek elvándorlásának elemzése
Az ügyfelek elvándorlásának elemzése és előrejelzése döntési fa osztályozóval.
Az ügyfelek elvándorlása az egyik legfontosabb és legnagyobb kihívást jelentő probléma az olyan vállalkozások számára, mint a hitelkártya vállalatok, kábelszolgáltatók, SASS és telekommunikációs vállalatok világszerte. Még ha nem is a legszórakoztatóbb ránézni, az ügyfelek lemorzsolódásának mérőszámai segíthetnek a vállalkozásoknak az ügyfélmegtartás javításában.
Az ügyfelek lemorzsolódását (más néven ügyfélelhullást) különböző kategóriákba csoportosítva tudjuk osztályozni. A szerződéses elvándorlás, amely olyan vállalkozásokra vonatkozik, mint a kábeltársaságok és a SAAS-szolgáltatók, az, amikor az ügyfelek úgy döntenek, hogy nem folytatják a lejárt szerződésüket. Az önkéntes lemorzsolódás viszont az, amikor az ügyfél úgy dönt, hogy felmondja meglévő szolgáltatását, ami olyan vállalatoknál alkalmazható, mint az előre fizetett mobiltelefonok és a streaming-előfizetések szolgáltatói. Az is előfordul, hogy a fogyasztók egy esetleges vásárlást a tranzakció befejezése nélkül hagynak ott. Ezeket az eseteket a szerződésen kívüli lemorzsolódás kategóriájába sorolhatjuk, ami a kiskereskedelmi helyekre, online áruházakra vagy online kölcsönzési szolgáltatásokra támaszkodó vállalkozások esetében alkalmazható. Végül pedig ott van az önkéntelen elvándorlás, amikor például egy ügyfél nem tudja kifizetni a hitelkártyaszámláját, és nem marad tovább a hitelkártya-társaságnál.
A vásárlói elvándorlás okai különbözőek lehetnek, és a megfelelő meghatározáshoz szakterületi ismeretekre lenne szükség, azonban néhány gyakori ok a következő: a termék használatának hiánya, a rossz szolgáltatás és a máshol jobb ár. Függetlenül a különböző iparágakra jellemző érveléstől, egy dolog minden területre érvényes: az új ügyfelek megszerzése többe kerül, mint a meglévők megtartása. Ez közvetlen hatással van a vállalaton belüli működési költségekre és marketingköltségvetésre.
Az ügyfelek elvándorlásának jelentős jelentősége miatt egy vállalkozáson belül az érdekeltek egyre több időt és energiát fektetnek abba, hogy kiderítsék, milyen okok állnak a szervezetükön belül, hogyan tudják pontosan megjósolni, hogy a meglévő ügyfelek milyen típusú ügyfeleik hagyják abba az üzletet velük, és mit tehetnek az ügyfelek elvándorlásának minimalizálása érdekében.
Az ügyfélelvándorlás elkerülésének legjobb módja, ha ismerjük az ügyfeleinket, és az ügyfél megismerésének legjobb módja a múltbeli és az új ügyfelek adatai.
Ebben a cikkben néhány fogyasztói adatot tekintünk át, és megnézzük, hogyan használhatjuk fel az adatok megismerését és a prediktív modellezést az ügyfélmegtartás javítása érdekében. Elemzésünk során Pythont és különféle gépi tanulási algoritmusokat fogunk használni az előrejelzéshez.
Az első ügyféladathalmazunk egy hitelkártya-társaságtól származik, ahol olyan ügyféljellemzőket tudunk áttekinteni, mint a nem, a kor, a futamidő, az egyenleg, az előfizetett termékek száma, a becsült fizetésük és az, hogy leállították-e az előfizetést vagy sem.
Láthatjuk az adatállományunkat, de szeretnénk meggyőződni arról is, hogy az adatok tiszták, ezért a tisztítási folyamat részeként megvizsgáljuk a hiányzó értékeket és az adattípusokat.
Ha a statisztikai meglátásokat nézzük, azt látjuk, hogy az ügyfeleink átlagéletkora 39 év, az ügyfél átlagosan 5 hónapja tag, a becsült átlagfizetés pedig 100K.
Ha a becsült fizetés nemi és földrajzi megoszlását nézzük, azt látjuk, hogy a férfi ügyfelek becsült átlagfizetése magasabb, mint a nőké Franciaországban és Spanyolországban, Németországban azonban a női ügyfelek becsült átlagfizetése magasabb.
Ha az életkor és a hitelpontszám közötti kapcsolatot vizsgáljuk, a lineáris kapcsolat nagyon gyenge ahhoz, hogy egyértelműen meghatározható legyen a korreláció.
Az alapvető feltáró elemzésünk alapján meghatározhatjuk azokat a fontos ügyféljellemzőket, amelyek a legjobb betekintést nyújthatják számunkra annak érdekében, hogy megjósoljuk, milyen típusú ügyfelek képesek elvándorolni. Folytathatjuk ezt az elemzést, hogy megválaszoljunk néhány alapvető kérdést, például: “Az alacsonyabb becsült fizetés növeli a lemorzsolódást?”. Vagy “Növeli-e az alacsonyabb hitelpontszám az elvándorlást?” és így tovább. Az adathalmazt különböző módon csoportosíthatjuk és összegezhetjük, hogy több betekintést nyerjünk az ügyféljellemzőkből. A következő adatkészletben ezek közül többbe is belemerülünk. Egyelőre kezdjünk el gondolkodni azon, hogy megjósoljuk, mely ügyfelek fognak elvándorolni.
Ebben az esetben megjelölhetjük a célváltozónkat (válaszváltozót), amely az elvándorlás. Ez azt jelenti, hogy létrehozhatunk egy osztályozási modellt, és különböző algoritmikus módszereket hajthatunk végre, például Decision Tree, Random Forest, Logistic Regression vagy Support Vector Machines. Amikor gépi tanulási modellekről van szó, két fő feltételt keresünk; 1- a jellemzőkészlet normális eloszlása, 2- a jellemzőkészlet azonos skálája.
Ezzel az adatkészlettel a hitelpontszám, a földrajzi elhelyezkedés, a nem, a nem, az életkor, a munkaviszony és a becsült fizetés attribútumait választhatjuk ki jellemzőkészletként, és az elvándorlást célváltozóként.
El kell érnünk, hogy a kategorikus változókat numerikus változókká frissítsük, mivel az általunk alkalmazandó gépi tanulási technikák megkövetelik, hogy minden ügyféljellemző numerikus legyen.
Az adathalmazunkat tovább oszthatjuk véletlenszerűen képzési és tesztelési adathalmazra, hogy modellünket a képzési adathalmazzal illesszük, és a tesztelési adathalmazzal teszteljük a jóslatokat. Az elképzelés lényege, hogy a modellt a képzési adathalmazzal képezzük ki, és az előrejelzést a tesztadathalmazzal teszteljük. Ha nem használnánk képzési és tesztelési adathalmazt, és helyette a teljes adathalmazt használnánk, akkor az algoritmus csak a mi adathalmazunkkal fog pontos előrejelzéseket készíteni, és minden új adattal, amelyet betáplálunk neki, kudarcot fog vallani.
Ebben az adathalmazban használjuk a DecisionTreeClassifier és a RandomForestClassifier modelleket és előrejelzéseket, továbbá értékeljük ki mindkettőt, hogy melyik a jobb.
Based on the metrics evaluations, míg a Decision Classifier modellel az előrejelzések 73%-a lenne pontos, addig a RandomForestClassifierrel az előrejelzések 82%-a lenne pontos. Ebben az esetben inkább a Random Forestet használnánk.
Ha megnézzük az elvándorló vs. nem elvándorló ügyfelek eloszlását, azt látjuk, hogy az adatok pártatlanok. Ez azt jelenti, hogy nem hagyatkozhatunk csak a pontossági metrika pontszámaira a predikciós modellek esetében. Nézzük meg a második ügyféladathalmazt, hogy lássuk, tudunk-e jobb elemzést és előrejelző modelleket készíteni.
Ezúttal egy távközlési vállalatot és annak meglévő ügyféljellemzőit vizsgáljuk, mint például a jelenlegi csomag, a díjak, az állam szerinti elhelyezkedés, az ügyfélszolgálati hívások száma, a számla hossza és az elvándorlás.
Nincsenek hiányzó adatok az adatállományban, és az adattípusok helyesek. Nézzük meg a kategorikus értékeket és azok egyedi értékeit.
Azt is látjuk, hogy az elvándorlási arány magasabb a nemzetközi csomaggal rendelkező ügyfeleknél és alacsonyabb a hangposta csomaggal rendelkező ügyfeleknél.
Sokkal több ügyfél marad a vállalatnál, mint ahány ügyfél elhagyja a vállalatot. Ha emlékszik a hitelkártya-társasággal végzett korábbi elemzésre, ez kiegyensúlyozatlanságot jelent az adatokban, és hatással van a predikciós modell fejlesztésére. (Egy fontos szempont, amit korábban nem említettünk, hogy nem használunk egyedi azonosítókat, például telefonszámot, ügyfél azonosítót vagy számlaszámot a jellemzők kiválasztásához.)
A rossz ügyfélkiszolgálás az ügyfélelvándorlás egyik jól ismert oka. A mi esetünkben erős pozitív lineáris kapcsolatot láthatunk az ügyfélszolgálati hívások száma és az elvándorlási arány között.
Ezzel az adatkészlettel több különböző modellt alakítsunk ki, és értékeljük ki őket, hogy megnézzük, melyik lenne a legmegfelelőbb az ügyfélelvándorlással kapcsolatos üzleti problémánk megoldására.
A korábbi hitelkártyás ügyféladathalmazhoz hasonlóan előfeldolgozást kell végeznünk, és a kategorikus változókat numerikus változókká kell frissítenünk a modellünk létrehozásához.
Most készen állunk az adathalmaz edzés/tesztelés szerinti felosztására és modelljeink létrehozására. Kezdjük a Random Forest modellel.
A távközlési vállalat ügyfeleinek elvándorlásának előrejelzésére létrehozott Random Forest modellünk pontossági pontszáma 0.89. Ezt azonban tovább kell elemeznünk, mivel az adatok pártatlanok.
Megnézhetjük a további értékelési metrikákat, például a kereszthitelesítési mátrixot, amelyből megtudhatjuk a valódi pozitívumok, a hamis pozitívumok, a valódi és hamis negatívumok, a pontosság, a visszahívás és az f1 pontszám mennyiségét. Azt is láthatjuk, hogy mit tehetünk a modell javításáért, ha megnézzük, hogy mely jellemzők járulnak hozzá leginkább a jósláshoz.
A modell 560 igaz negatívot, 13 hamis pozitívot, 54 hamis negatívot és 40 igaz pozitívot jósol.
Ha a modellt a Random Forest osztályozóval értékeljük, azt látjuk, hogy:
A pontossági pontszám 0.729
Recall score 0.372
ROC görbe a következő:
AUC score (a roc görbe alatti terület) 0.83, az f1 pontszám pedig 0,49.
Megállapítjuk azt is, hogy a modell legjobb teljesítményének eléréséhez az n becslőt 30-ra kell állítanunk. (Jelenleg a modellünk 100-at használ)
Megnézhetjük továbbá a jellemzők fontosságát, hogy lássuk, mely jellemzőknek van a legnagyobb hatása az előrejelzésre.
A feature fontossága alapján az állapotot mindenképpen eltávolíthatjuk a modellünkből.
Hozzunk létre egy másik modellt a Support Vector Machine segítségével.
Mikor létrehozzuk a modellt és megnézzük a pontosságot, már látjuk, hogy a Support Vector Machine pontossági pontszáma alacsonyabb, mint a Random Forest osztályozásé.
Mikor létrehozzuk a modellt és megnézzük a pontosságot, már látjuk, hogy a Support Vector Machine pontossági pontszáma alacsonyabb, mint a Random Forest osztályozásé.
A modell 567 igaz negatív, 6 hamis pozitív, 83 hamis negatív és 11 igaz pozitív eredményt jósol. Bár a Hamis Pozitívok száma kissé csökkent, az Igaz Pozitívok száma jelentősen kevesebb a RandomForestClassifierhez képest.
A pontossági pontszám(0,647) és a visszahívási pontszám(0,11) is sokkal alacsonyabb, mint a Random Classifieré. A roc-görbe alatti terület (auc) 0,83, ami megegyezik a Random Forest osztályozóval. A legjobb beállítás a Support Vector Machine fokozata az 1. (ami jelenleg az alapértelmezett 3. értékként van beállítva).
A létrehozott két prediktív modell alapján az első, a Random Forest Classifierrel létrehozott modell jobb választás lenne. Ezt a modellt is tuningolhatjuk és javíthatjuk az n_estimator frissítésével és az állapotváltozó eltávolításával a jellemzőkészletből a jobb előrejelzés érdekében.
A meglévő fogyasztói ismeretekkel az adatokon keresztül a vállalatok megjósolhatják az ügyfelek lehetséges igényeit és problémáit, megfelelő stratégiákat és megoldásokat határozhatnak meg velük szemben, megfelelhetnek az elvárásaiknak és megtarthatják az üzletüket. Az előrejelző elemzés és modellezés alapján a vállalkozások célzott megközelítéssel összpontosíthatják figyelmüket, szegmentálva és személyre szabott megoldásokat kínálva nekik. Annak elemzése, hogy hogyan és mikor történik az elvándorlás az ügyfél szolgáltatásokkal való életciklusában, lehetővé teszi a vállalat számára, hogy megelőzőbb intézkedésekkel álljon elő.