Analýza odchodu zákazníků

Kvě 29, 2021
admin

Krátký přehled analýzy a predikce odchodu zákazníků pomocí klasifikátoru rozhodovacího stromu.

Odchod zákazníků je jedním z nejdůležitějších a nejnáročnějších problémů pro podniky, jako jsou společnosti vydávající kreditní karty, poskytovatelé kabelových služeb, SASS a telekomunikační společnosti po celém světě. I když pohled na ni není nejzábavnější, metrika odlivu zákazníků může podnikům pomoci zlepšit udržení zákazníků.

Customer Churn Photo by freestocks on Unsplash

Odchod zákazníků (známý také jako úbytek zákazníků) můžeme klasifikovat rozdělením do různých kategorií. Smluvní odchod (Contractual Churn), který se týká podniků, jako jsou kabelové společnosti a poskytovatelé služeb SAAS, je situace, kdy se zákazníci rozhodnou nepokračovat ve svých vypršených smlouvách. Dobrovolný odchod naopak nastává, když se zákazník rozhodne zrušit svou stávající službu, což se může týkat společností, jako jsou poskytovatelé předplacených mobilních telefonů a předplatného streamingu. Existují také případy, kdy spotřebitelé opustí případný nákup, aniž by transakci dokončili. Tyto případy můžeme kategorizovat jako nesmluvní odchod, který je použitelný pro podniky, které se spoléhají na maloobchodní prodejny, internetové obchody nebo online výpůjční služby. A konečně existuje nedobrovolný odchod, například když zákazník nemůže zaplatit účet za kreditní kartu a nezůstává již u společnosti vydávající kreditní karty.

Důvody odchodu zákazníků se mohou lišit a vyžadovaly by znalost dané oblasti, aby se daly správně definovat, nicméně některé běžné jsou; nedostatečné využití produktu, špatné služby a lepší cena někde jinde. Bez ohledu na důvody, které mohou být specifické pro různá odvětví, platí pro každou oblast jedno: Získání nových zákazníků stojí více než udržení stávajících. To má přímý dopad na provozní náklady a marketingové rozpočty ve firmě.

Foto: rupixen.com na Unsplash

Vzhledem ke značnému významu odlivu zákazníků v rámci podniku investují zainteresované strany více času a úsilí do zjišťování důvodů v rámci svých organizací, jak mohou přesně předvídat, jaký typ stávajících zákazníků s nimi může přestat obchodovat, a co mohou udělat pro minimalizaci odlivu zákazníků.

Nejlepším způsobem, jak se vyhnout odchodu zákazníků, je znát své zákazníky, a nejlepším způsobem, jak poznat své zákazníky, jsou historická a nová data o zákaznících.

V tomto článku si projdeme některá data o zákaznících a zjistíme, jak můžeme využít poznatky z dat a prediktivní modelování, abychom zlepšili udržení zákazníků. Při analýze budeme používat Python a různé algoritmy strojového učení pro predikci.

Naše první sada zákaznických dat pochází od společnosti vydávající kreditní karty, kde jsme schopni přezkoumat atributy zákazníků, jako je pohlaví, věk, doba trvání předplatného, zůstatek, počet produktů, které mají předplacené, jejich odhadovaný plat a to, zda předplatné ukončili, nebo ne.

Můžeme si prohlédnout náš soubor dat, ale chceme se také ujistit, že jsou data čistá, takže v rámci procesu čištění se podíváme na chybějící hodnoty a typy dat.

Když se podíváme na statistické poznatky, vidíme, že průměrný věk našich zákazníků je 39 let, průměrný měsíc, po který je zákazník členem, je 5 let a odhadovaný průměrný plat je 100 tisíc.

Pokud se podíváme na pohlaví a geografické rozložení odhadovaného platu, vidíme, že odhadovaný průměrný plat zákazníků mužů je vyšší než žen ve Francii a Španělsku, avšak v Německu je odhadovaný průměrný plat zákaznic vyšší.

Pokud se podíváme na vztah mezi věkem a úvěrovým skóre, lineární vztah je velmi slabý, aby bylo možné jasně definovat korelaci.

Na základě naší základní průzkumné analýzy můžeme definovat důležité atributy zákazníků, které nám mohou poskytnout nejlepší přehled, abychom mohli předpovědět typ zákazníků, kteří mohou odejít. V této analýze můžeme pokračovat a odpovědět na některé základní otázky, například: „Zvyšuje nižší odhadovaný plat odchod zákazníků?“. Nebo „Zvyšuje nižší kreditní skóre odchod klientů?“ a podobně. Soubor dat můžeme různě seskupovat a shrnovat, abychom získali více informací o atributech zákazníků. Více se do nich ponoříme v dalším datasetu. Prozatím začněme přemýšlet o tom, jak předpovídat, kteří zákazníci odejdou.

V tomto případě můžeme označit naši cílovou (odpovědní) proměnnou, kterou je odchod. To znamená, že můžeme vytvořit klasifikační model a provést různé metody algoritmů, jako je rozhodovací strom, náhodný les, logistická regrese nebo stroje s podpůrnými vektory. Pokud jde o modely strojového učení, hledáme dvě hlavní podmínky: 1- normální rozložení souboru příznaků, 2- stejné měřítko souboru příznaků.

V tomto souboru dat můžeme jako soubor příznaků zvolit kreditní skóre, zeměpisnou polohu, pohlaví, věk, délku zaměstnání a odhadovaný plat a jako cílovou proměnnou churn.

Musíme se ujistit, že kategorické proměnné aktualizujeme na číselné proměnné, protože techniky strojového učení, které budeme používat, vyžadují, aby všechny atributy zákazníků byly číselné.

Náš soubor dat můžeme dále náhodně rozdělit na tréninkový a testovací soubor dat, abychom mohli náš model napasovat na tréninkový soubor dat a předpovědi otestovat na testovacím souboru dat. Smyslem je trénovat model s trénovacím datasetem a testovat předpovědi s testovacím datasetem. Pokud bychom nepoužili tréninkovou a testovací datovou sadu a místo toho použili celou datovou sadu, algoritmus bude provádět přesné předpovědi pouze s naší datovou sadou a selže s jakýmikoli novými daty, která mu budou dodána.

V této datové sadě použijeme k vytvoření našeho modelu a předpovědi nástroje DecisionTreeClassifier a RandomForestClassifier, dále oba vyhodnotíme a zjistíme, který z nich je lepší.

Based on the metrics evaluations, zatímco u modelu s rozhodovacím klasifikátorem by bylo přesných 73 % předpovědí, u modelu s klasifikátorem RandomForest by bylo přesných 82 % předpovědí. V tomto případě bychom raději použili Random Forest.

Pokud se podíváme na rozložení zákazníků, kteří odcházejí a neodcházejí, vidíme, že data jsou nestranná. To znamená, že se nemůžeme spoléhat pouze na skóre metriky přesnosti predikčních modelů. Podívejme se na druhý soubor dat o zákaznících, abychom zjistili, zda můžeme provést lepší analýzu a predikční modely.

Tentokrát se podíváme na telekomunikační společnost a její stávající atributy zákazníků, jako je jejich aktuální tarif, poplatky, umístění z hlediska státu, množství hovorů se zákaznickým servisem, délka účtu a odchod.

V datovém souboru nechybí žádné údaje a typy dat jsou správné. Podívejme se na kategoriální hodnoty a jejich jedinečné hodnoty.

Při pohledu na stát a odchod vidíme, že Kalifornie a New Jersey jsou top to státy s nejvyšší mírou odchodu.

Vidíme také, že míra odchodu je vyšší u zákazníků s mezinárodním tarifem a nižší u zákazníků, kteří mají tarif hlasové pošty.

Je mnohem více zákazníků, kteří u společnosti zůstávají, než těch, kteří ji jako zákazníci opouštějí. Pokud si vzpomenete na dřívější analýzu se společností vydávající kreditní karty, znamená to nerovnováhu v datech a má to dopad na vývoj predikčního modelu. (Důležitým aspektem, který jsme dříve nezmínili, je to, že pro výběr příznaků nepoužíváme jedinečné identifikátory, jako je telefonní číslo, identifikační číslo zákazníka nebo číslo účtu)

Špatný zákaznický servis je jedním z dobře známých důvodů odchodu zákazníků. V našem případě můžeme vidět silnou pozitivní lineární závislost s množstvím hovorů zákaznického servisu a mírou odchodu zákazníků.

S tímto souborem dat vytvoříme několik různých modelů a vyhodnotíme je, abychom zjistili, který z nich bude nejvhodnější pro řešení našeho obchodního problému odchodu zákazníků.

Podobně jako u předchozího souboru dat o zákaznících kreditních karet musíme provést předběžné zpracování a aktualizovat kategoriální proměnné na číselné, abychom mohli vytvořit náš model.

Nyní jsme připraveni rozdělit datovou sadu na trénovat/testovat a vytvořit naše modely. Začněme s náhodným lesem.

Skóre přesnosti námi vytvořeného modelu Random Forest pro predikci odchodu zákazníků telekomunikační společnosti je 0.89. Měli bychom se však podívat na další analýzu, protože data jsou nestranná.

Můžeme si prohlédnout další metriky hodnocení, jako je matice křížové validace, která nám poskytne množství pravdivých pozitivních výsledků, falešně pozitivních výsledků, pravdivých a falešně negativních výsledků, přesnost, odvolání a skóre f1. Můžeme také zjistit, co můžeme udělat pro zlepšení modelu, když se podíváme na to, které funkce přispívají k předpovědi nejvíce.

Model předpovídá 560 pravdivě negativních, 13 falešně pozitivních, 54 falešně negativních, 40 pravdivě pozitivních.

Při vyhodnocení modelu pomocí klasifikátoru Random Forest vidíme, že:

Skóre přesnosti je 0.729

Skóre odvolání je 0,372

Křivka ROC je následující:

Skóre AUC (plocha pod křivkou roc) je 0.83 a skóre f1 je 0,49.

Zjistili jsme také, že k dosažení nejlepšího výkonu modelu je třeba nastavit odhad n na hodnotu 30. V případě, že se model nepodařilo nastavit, je třeba nastavit odhad n na hodnotu 0. (V současné době náš model používá 100)

Můžeme se dále podívat na důležitost rysů, abychom zjistili, které rysy mají největší vliv na předpověď.

Nejlépe na základě důležitosti funkce můžeme z našeho modelu definitivně odstranit stav.

Vytvoříme další model pomocí Support Vector Machine.

Když vytvoříme model a podíváme se na přesnost, již vidíme, že skóre přesnosti pro Support Vector Machine je nižší než pro Random Forest Classification.

Při vytvoření modelu a pohledu na přesnost již vidíme, že skóre přesnosti pro Support Vector Machine je nižší než pro Random Forest Classification.

Model předpovídá 567 True Negatives, 6 False Positives, 83 False Negatives, 11 True Positives. Přestože počet falešných pozitiv mírně poklesl, pravdivých pozitiv je ve srovnání s modelem RandomForestClassifier výrazně méně.

Skóre přesnosti(0,647) i skóre odvolání(0,11) je mnohem nižší než u RandomClassifier. Plocha pod křivkou roc (auc) je 0,83, což je stejné jako u Náhodného lesního klasifikátoru. Nejlepší volbou pro stupeň Support Vector Machine je 1. (který je v současné době nastaven jako výchozí hodnota 3).

Na základě dvou prediktivních modelů, které jsme vytvořili, by byl lepší volbou první z nich, který jsme vytvořili pomocí Random Forest Classifier. Tento model můžeme také vyladit a vylepšit aktualizací n_estimátoru a odstraněním stavové proměnné ze sady příznaků pro lepší predikci.

S existujícími poznatky o spotřebitelích prostřednictvím dat mohou společnosti předvídat možné potřeby a problémy zákazníků, definovat proti nim správné strategie a řešení, splnit jejich očekávání a udržet si jejich obchody. Na základě prediktivní analýzy a modelování mohou podniky zaměřit svou pozornost cíleným přístupem prostřednictvím segmentace a nabídnout jim řešení na míru. Analýza toho, jak a kdy dochází k odchodu zákazníků v jejich životním cyklu se službami, umožní společnosti přijít s preventivnějšími opatřeními.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.