Customer Churn Analysis

mai 29, 2021
admin

Brief Overview of Customer Churn Analysis and Prediction with Decision Tree Classifier.

Customer Churn este una dintre cele mai importante și mai dificile probleme pentru întreprinderi, cum ar fi companiile de carduri de credit, furnizorii de servicii de cablu, SASS și companiile de telecomunicații din întreaga lume. Chiar dacă nu este cel mai distractiv de privit, măsurătorile de dezabonare a clienților pot ajuta întreprinderile să îmbunătățească retenția clienților.

Customer Churn Photo by freestocks on Unsplash

Potem clasifica rata de dezabonare a clienților (cunoscută și sub numele de uzură a clienților) prin gruparea lor în diferite categorii. Churn contractual, care se aplică la întreprinderi precum companiile de cablu și furnizorii de servicii SAAS, este atunci când clienții decid să nu-și mai continue contractele expirate. Churn voluntar, pe de altă parte, este atunci când un client decide să își anuleze serviciul existent, care poate fi aplicabil pentru companii precum cele de telefoane mobile preplătite și furnizorii de abonamente de streaming. Există, de asemenea, momente în care consumatorii părăsesc o posibilă achiziție fără a finaliza tranzacția. Putem clasifica aceste cazuri drept dezabonare necontractuală, care este aplicabilă pentru întreprinderile care se bazează pe locații de vânzare cu amănuntul, magazine online sau servicii de împrumut online. Și, în cele din urmă, există dezabonarea involuntară, de exemplu, atunci când un client nu își poate plăti factura de card de credit și nu mai rămâne cu compania de carduri de credit.

Motivația dezabonării clienților poate varia și ar necesita cunoștințe de domeniu pentru a fi definită în mod corespunzător, însă unele dintre cele mai comune sunt; lipsa de utilizare a produsului, servicii slabe și un preț mai bun în altă parte. Indiferent de raționamentele care pot fi specifice pentru diferite industrii, un lucru se aplică pentru fiecare domeniu este că, este mai costisitor să achiziționezi noi clienți decât să-i păstrezi pe cei existenți. Acest lucru are un impact direct asupra costurilor de operare și a bugetelor de marketing din cadrul companiei.

Fotografie de rupixen.com on Unsplash

Din cauza importanței semnificative a ratei de dezabonare a clienților în cadrul unei afaceri, părțile interesate investesc mai mult timp și efort pentru a afla care este rațiunea în cadrul organizațiilor lor, cum pot prezice cu exactitate tipul de clienți existenți care pot înceta să mai facă afaceri cu ei și ce pot face pentru a minimiza rata de dezabonare a clienților.

Cel mai bun mod de a evita dezabonarea clienților este să vă cunoașteți clienții, iar cel mai bun mod de a vă cunoaște clienții este prin intermediul datelor istorice și a celor noi.

În acest articol, vom trece în revistă câteva date despre consumatori și vom vedea cum putem valorifica informațiile din date și modelarea predictivă pentru a îmbunătăți retenția clienților. În analiza noastră, vom folosi Python și o varietate de algoritmi de învățare automată pentru predicție.

Primul nostru set de date despre clienți provine de la o companie de carduri de credit, unde putem examina atributele clienților, cum ar fi sexul, vârsta, vechimea, vechimea, soldul, numărul de produse la care sunt abonați, salariul lor estimat și dacă au oprit sau nu abonamentul.

Putem vedea setul nostru de date, dar dorim, de asemenea, să ne asigurăm că datele sunt curate, astfel încât, ca parte a procesului de curățare, analizăm valorile lipsă și tipurile de date.

Când ne uităm la perspectivele statistice, vedem că vârsta medie a clienților noștri este de 39 de ani, media lunilor în care clientul a fost membru este de 5 luni, iar salariul mediu estimat este de 100K.

Când ne uităm la distribuția geografică și de gen a salariului estimat, vedem că salariul mediu estimat al clienților de sex masculin este mai mare decât cel al femeilor în Franța și Spania, însă în Germania salariul mediu estimat al clienților de sex feminin este mai mare.

Când ne uităm la relația dintre vârstă și scorul de credit, relația liniară este foarte slabă pentru a defini clar corelația.

Pe baza analizei noastre exploratorii de bază, putem defini atributele importante ale clienților care ne pot oferi cea mai bună perspectivă pentru a prezice tipul de clienți care pot renunța. Putem continua această analiză pentru a răspunde la câteva întrebări de bază, cum ar fi: „Un salariu estimat mai mic crește rata de dezabonare?”. Sau „Un scor de credit mai mic crește rata de dezabonare?” și așa mai departe. Putem grupa și rezuma setul de date în diferite moduri pentru a obține mai multe informații din atributele clienților. Ne vom scufunda în mai multe dintre acestea în următorul set de date. Deocamdată, să începem să ne gândim la prezicerea clienților care vor renunța la abonament.

În acest caz, putem eticheta variabila noastră țintă (de răspuns), care este rata de renunțare. Acest lucru înseamnă că putem crea un model de clasificare și putem efectua diferite metode de algoritmi, cum ar fi Decision Tree, Random Forest, Logistic Regression sau Support Vector Machines. Când vine vorba de modelele de învățare automată, căutăm două condiții principale; 1- Distribuția normală a setului de caracteristici, 2- Aceeași scară a setului de caracteristici.

În acest set de date, putem selecta atributele scor de credit, geografie, sex, vârstă, vechime, vechime în muncă și salariu estimat ca set de caracteristici și churn ca variabilă țintă.

Trebuie să ne asigurăm că actualizăm variabilele categorice în variabile numerice, deoarece tehnicile de învățare automată pe care le vom aplica necesită ca toate atributele clienților să fie numerice.

În continuare, putem împărți aleatoriu setul nostru de date în seturi de date de instruire și de testare pentru a ne potrivi modelul cu setul de date de instruire și pentru a testa predicțiile cu setul de date de testare. Ideea este de a forma modelul cu setul de date de formare și de a testa predicțiile cu setul de date de testare. Dacă nu am folosi seturile de date de instruire și de testare și am folosi în schimb întregul set de date, algoritmul va face predicții precise doar cu setul nostru de date și va eșua cu orice date noi care îi sunt furnizate.

În acest set de date, să folosim DecisionTreeClassifier și RandomForestClassifier pentru a crea modelul și predicția noastră, apoi să le evaluăm pe amândouă pentru a vedea care dintre ele este mai bună.

Based on the metrics evaluations, în timp ce 73% dintre predicții ar fi exacte cu modelul de clasificare a deciziei, 82% dintre predicții ar fi exacte cu modelul RandomForestClassifier. Am prefera să folosim Random Forest în acest caz.

Când ne uităm la distribuția clienților care își dau demisia față de cei care nu își dau demisia, vedem că datele sunt imparțiale. Acest lucru înseamnă că nu ne putem baza doar pe scorurile metrice de acuratețe pentru modelele de predicție. Să ne uităm la al doilea set de date despre clienți pentru a vedea dacă putem face o analiză și modele de predicție mai bune.

De data aceasta analizăm o companie de telecomunicații și atributele clienților existenți, cum ar fi planul lor actual, tarifele, locația în termeni de stat, numărul de apeluri la serviciul clienți, durata contului și rata de dezabonare.

Nu există date lipsă în setul de date, iar tipurile de date sunt corecte. Să ne uităm la valorile categorice și la valorile unice ale acestora.

Când ne uităm la stat și la rata de dezabonare, vedem că California și New Jersey sunt primele două state cu cea mai mare rată de dezabonare.

Veziem, de asemenea, că rata de dezabonare este mai mare în cazul clienților cu plan internațional și mai mică în cazul clienților care au plan de mesagerie vocală.

Există mult mai mulți clienți care rămân cu compania decât cei care părăsesc compania ca și client. Dacă vă amintiți analiza anterioară cu compania de carduri de credit, acest lucru înseamnă dezechilibre în date și are un impact asupra dezvoltării modelului de predicție. (Un aspect important pe care nu l-am menționat mai devreme este că nu avem nevoie de identificatori unici, cum ar fi numărul de telefon, ID-ul clientului sau numărul de cont pentru selectarea caracteristicilor.)

Serviciul slab pentru clienți este unul dintre motivele bine-cunoscute pentru renunțarea la clienți. În cazul nostru, putem observa o relație liniară pozitivă puternică cu valoarea apelurilor la serviciul clienți și rata de dezabonare.

Cu acest set de date, să dezvoltăm mai multe modele diferite și să le evaluăm pentru a vedea care dintre ele ar fi cel mai potrivit pentru a rezolva problema noastră de afaceri privind dezabonarea clienților.

La fel ca în cazul setului de date anterior privind clienții de carduri de credit, trebuie să efectuăm o preprocesare și să actualizăm variabilele categoriale în variabile numerice pentru a crea modelul nostru.

Acum suntem pregătiți să împărțim setul de date pentru instruire/testare și să ne creăm modelele. Să începem cu Random Forest.

Scorul nostru de acuratețe pentru modelul Random Forest pe care l-am creat pentru prezicerea ratei de dezabonare a clienților companiei de telecomunicații este 0.89. Cu toate acestea, ar trebui să analizăm acest lucru în continuare, deoarece datele sunt imparțiale.

Potem analiza metrici de evaluare suplimentare, cum ar fi matricea de validare încrucișată, care ne va oferi cantitatea de adevărați pozitivi, falși pozitivi, adevărați și falși negativi, precizie, rechemare și scorul f1. De asemenea, putem vedea ce putem face pentru a îmbunătăți modelul, analizând ce caracteristici contribuie cel mai mult la predicție.

Modelul prezice 560 de negative adevărate, 13 de pozitive false, 54 de negative false, 40 de pozitive adevărate.

Când evaluăm modelul cu clasificatorul Random Forest, vedem că:

Scorul de precizie este 0.729

Scorul de rechemare este 0,372

Curba ROC este următoarea:

Scorul AUC (aria de sub curba roc) este 0.83, iar scorul f1 este de 0,49.

De asemenea, aflăm că, pentru a obține cea mai bună performanță a modelului, trebuie să stabilim estimatorul n la 30. (În prezent, modelul nostru folosește 100)

Ne putem uita în continuare la importanța caracteristicilor pentru a vedea ce caracteristici au cel mai mare impact asupra predicției.

Pe baza importanței caracteristicilor, putem elimina cu siguranță starea din modelul nostru.

Să creăm un alt model folosind Support Vector Machine.

Când creăm modelul și ne uităm la acuratețe, vedem deja că scorul de acuratețe pentru Support Vector Machine este mai mic decât Random Forest Classification.

Când creăm modelul și ne uităm la acuratețe, vedem deja că scorul de acuratețe pentru Support Vector Machine este mai mic decât cel pentru Random Forest Classification.

Modelul prezice 567 de Adevărate Negative, 6 False Pozitive, 83 de False Negative, 11 Adevărate Pozitive. Chiar dacă numărul de False Positive a scăzut ușor, True Positives este semnificativ mai mic în comparație cu RandomForestClassifier.

Atât scorul de precizie (0,647), cât și scorul de rechemare (0,11) sunt mult mai mici decât cele ale Clasificatorului aleatoriu. Aria sub curba roc (auc) este de 0,83, care este aceeași cu cea a clasificatorului Random Forest. Cea mai bună opțiune pentru gradul Support Vector Machine este 1. (care în prezent este setat ca valoare implicită de 3).

Bazându-ne pe cele două modele predictive pe care le-am creat, primul model pe care l-am creat cu Random Forest Classifier ar fi o alegere mai bună. Putem, de asemenea, să reglăm acest model și să îl îmbunătățim prin actualizarea n_estimator și prin eliminarea variabilei de stare din setul de caracteristici pentru o predicție mai bună.

Cu ajutorul informațiilor existente despre consumatori prin intermediul datelor, companiile pot prezice posibilele nevoi și probleme ale clienților, pot defini strategii și soluții adecvate față de acestea, pot satisface așteptările acestora și le pot păstra afacerea. Pe baza analizei și modelării predictive, companiile își pot concentra atenția cu o abordare țintită prin segmentare și oferindu-le soluții personalizate. Analiza modului și a momentului în care are loc dezabonarea în ciclul de viață al clienților cu serviciile va permite companiei să vină cu măsuri mai preventive.

.

Lasă un răspuns

Adresa ta de email nu va fi publicată.