Asiakkaiden vaihtuvuusanalyysi
Lyhyt katsaus asiakkaiden vaihtuvuusanalyysiin ja ennustamiseen päätöksentekopuuluokittelijan avulla.
Asiakkaiden vaihtuvuus on yksi tärkeimmistä ja haastavimmista ongelmista yrityksille, kuten luottokorttiyhtiöille, kaapelipalveluntarjoajille, SASS:lle ja televiestintäyhtiöille maailmanlaajuisesti. Vaikka se ei ole kaikkein hauskinta katsottavaa, asiakkaiden poistuman mittarit voivat auttaa yrityksiä parantamaan asiakaspysyvyyttä.
Voidaan luokitella asiakaspoistumaa (joka tunnetaan myös nimellä asiakaspoistuma) ryhmittelemällä ne eri luokkiin. Sopimusperusteinen vaihtuvuus (Contractual Churn), jota sovelletaan kaapeliyhtiöiden ja SAAS-palvelujen tarjoajien kaltaisiin yrityksiin, tarkoittaa sitä, että asiakkaat päättävät olla jatkamatta päättynyttä sopimustaan. Vapaaehtoinen poistuma taas on sitä, että asiakas päättää irtisanoa nykyisen palvelunsa, ja sitä voidaan soveltaa esimerkiksi prepaid-matkapuhelimiin ja suoratoistotilausten tarjoajiin. On myös tilanteita, joissa kuluttajat jättävät mahdollisen ostotapahtuman tekemättä sitä loppuun. Voimme luokitella nämä tapaukset sopimuksettomaksi vaihtuvuudeksi, jota voidaan soveltaa yrityksiin, jotka tukeutuvat vähittäismyyntipaikkoihin, verkkokauppoihin tai verkkolainauspalveluihin. Ja lopuksi on vielä tahaton vaihtuvuus, esimerkiksi kun asiakas ei pysty maksamaan luottokorttilaskuaan eikä pysy enää luottokorttiyhtiön palveluksessa.
Asiakkaiden vaihtuvuuden syyt voivat vaihdella, ja niiden asianmukainen määrittely edellyttäisi aluetuntemusta, mutta joitakin yleisiä syitä ovat tuotteen käytön puute, huono palvelu ja edullisempi hinta muualla. Riippumatta siitä, mitkä syyt voivat olla eri toimialoille ominaisia, yksi asia pätee kaikilla aloilla: uusien asiakkaiden hankkiminen maksaa enemmän kuin nykyisten asiakkaiden säilyttäminen. Tämä vaikuttaa suoraan yrityksen toimintakustannuksiin ja markkinointibudjetteihin.
Koska asiakkaiden vaihtuvuuden merkitys yrityksessä on merkittävä, sidosryhmät panostavat yhä enemmän aikaa ja vaivaa selvittääkseen, mistä se johtuu heidän organisaatioissaan, miten he voivat ennustaa tarkasti, minkälaiset nykyiset asiakkaat voivat lopettaa liiketoimintansa heidän kanssaan ja mitä he voivat tehdä minimoidakseen asiakkaiden vaihtuvuuden.
Paras tapa välttää asiakaspoistumaa on tuntea asiakkaat, ja paras tapa tuntea asiakkaat on historiallinen ja uusi asiakastieto.
Tässä artikkelissa käymme läpi joitakin kuluttajatietoja ja katsomme, miten voimme hyödyntää datan oivalluksia ja ennakoivaa mallintamista parantaaksemme asiakaspysyvyyttä. Analyysissämme käytämme Pythonia ja erilaisia koneoppimisalgoritmeja ennustamiseen.
Ensimmäinen asiakastietoaineistomme on peräisin luottokorttiyhtiöltä, jossa pystymme tarkastelemaan asiakkaan ominaisuuksia, kuten sukupuolta, ikää, toimikautta, saldoa, tilattujen tuotteiden lukumäärää, arvioitua palkkaa ja sitä, ovatko he lopettaneet tilauksen vai eivät.
Katselemme tietokokonaisuuttamme, mutta haluamme myös varmistaa, että tiedot ovat puhtaita, joten osana puhdistusprosessia tarkastelemme puuttuvat arvot ja tietotyypit.
Kun tarkastelemme tilastollisia oivalluksia, näemme, että asiakkaidemme keski-ikä on 39 vuotta, keskimääräinen kuukausi, jonka asiakas on ollut jäsenenä, on 5 kuukautta ja arvioitu keskipalkka on 100 000.
Kun tarkastelemme arvioidun palkan sukupuolista ja maantieteellisestä jakaumasta, huomaamme, että miesasiakkaiden arvioitu keskipalkka on korkeampi kuin naisasiakkaiden Ranskassa ja Espanjassa, mutta kuitenkin naisasiakkaiden arvioitu keskipalkka Ranskassa ja Espanjassa.
Kun tarkastelemme iän ja luottopistemäärän välistä suhdetta, lineaarinen yhteys on hyvin heikko korrelaation selkeäksi määrittelemiseksi.
Perusteellisen eksploratiivisen analyysimme perusteella voimme määritellä tärkeät asiakasominaisuudet, jotka antavat meille parhaan ymmärryksen ennustaaksemme, minkä tyyppiset asiakkaat voivat vaihtaa. Voimme jatkaa tätä analyysia vastataksemme joihinkin peruskysymyksiin, kuten: ”Lisääkö alhaisempi arvioitu palkka vaihtuvuutta?”. Tai ”Lisääkö alhaisempi luottotietopistemäärä irtisanoutumista?” ja niin edelleen. Voimme ryhmitellä ja tiivistää tietokokonaisuutta eri tavoin saadaksemme lisää tietoa asiakkaiden ominaisuuksista. Näihin syvennymme lisää seuraavassa tietokokonaisuudessa. Aloitetaan nyt miettimään, miten ennustetaan, mitkä asiakkaat irtisanoutuvat.
Tässä tapauksessa voimme merkitä kohde- (vaste-) muuttujamme, joka on irtisanoutuminen. Tämä tarkoittaa, että voimme luoda luokittelumallin ja suorittaa erilaisia algoritmimenetelmiä, kuten Decision Tree, Random Forest, Logistic Regression tai Support Vector Machines. Kun kyse on koneoppimismalleista, etsimme kahta pääehtoa; 1- ominaisuusjoukon normaalijakauma, 2- ominaisuusjoukon sama asteikko.
Tässä tietokokonaisuudessa voimme valita ominaisuusjoukoksi luottopisteet, maantieteellisen sijainnin, sukupuolen, iän, virka-ajan ja arvioidun palkan attribuutit ja kohdemuuttujaksi poistuman.
Meidän on huolehdittava siitä, että päivitämme kategoriset muuttujat numeerisiksi muuttujiksi, sillä soveltamamme koneoppimistekniikat edellyttävät, että kaikkien asiakkaiden attribuuttien on oltava numeerisia.
Voitamme lisäksi jakaa tietokokonaisuutemme satunnaisesti harjoittelu- ja testaustietokokonaisuuksiin sovittaaksemme mallimme harjoittelutietokokonaisuuteen ja testataksemme ennusteita testaustietokokonaisuudella. Ideana on kouluttaa malli koulutustietokannalla ja testata ennuste testitietokannalla. Jos emme käyttäisi harjoittelu- ja testausdatakokonaisuuksia ja käyttäisimme sen sijaan koko datakokonaisuutta, algoritmi tekisi tarkkoja ennusteita vain meidän datakokonaisuudellamme ja epäonnistuisi minkä tahansa uuden datan kanssa, joka sille syötetään.
Käytetään tässä datakokonaisuudessa DecisionTreeClassifier- ja RandomForestClassifier-luokittelijoita luodaksemme mallejamme ja ennusteitamme, ja edelleen arvioimme molempia nähdäksenne, kumpi niistä toinen on parempi.
Based on the metrics evaluations, kun 73 % ennusteista olisi tarkkoja Decision Classifier -mallilla, 82 % ennusteista olisi tarkkoja RandomForestClassifier -mallilla. Käyttäisimme tässä tapauksessa mieluummin Random Forestia.
Kun tarkastelemme vaihtuvien vs. ei vaihtuvien asiakkaiden jakaumaa, huomaamme, että data on puolueetonta. Tämä tarkoittaa, ettemme voi luottaa ennustemallien osalta pelkästään tarkkuusmetriikan pisteisiin. Tarkastellaan toista asiakastietoaineistoa, jotta nähdään, pystymmekö tekemään parempia analyysejä ja ennustemalleja.
Tällä kertaa tarkastelemme televiestintäyhtiötä ja sen olemassa olevia asiakasominaisuuksia, kuten nykyistä palvelusuunnitelmaa, maksuja, sijaintia osavaltiossa, asiakaspalvelupuhelujen lukumäärää, tilin pituutta ja poistumaa.
Tietokannassa ei ole puuttuvia tietoja ja tietotyypit ovat oikein. Tarkastellaan kategorisia arvoja ja niiden yksilöiviä arvoja.
Katsottaessa osavaltiota ja vaihtuvuutta huomaamme, että Kalifornian ja New Jerseyn osavaltiot ovat kärkipäässä osavaltioihin, joissa on korkein vaihtuvuus.
Näemme myös, että vaihtuvuusaste on korkeampi kansainvälisen liittymän asiakkailla ja matalampi asiakkailla, joilla on puhepostisopimus.
Yhtiöllä on paljon enemmän asiakkaita, jotka pysyvät yhtiössä, kuin että he lähtevät yhtiöstä asiakkaana. Jos muistat aiemman analyysin luottokorttiyhtiön kanssa, tämä tarkoittaa epätasapainoa aineistossa ja vaikuttaa ennustemallin kehittämiseen. (Yksi tärkeä seikka, jota emme maininneet aiemmin, on se, että meillä ei ole käyttöä yksilöllisille tunnisteille, kuten puhelinnumerolle, asiakastunnukselle tai tilinumerolle, ominaisuuksien valinnassa.)
Huono asiakaspalvelu on yksi tunnetuista syistä asiakkaiden vaihtuvuuteen. Tapauksessamme näemme vahvan positiivisen lineaarisen yhteyden asiakaspalvelupuhelujen määrän ja poistumisasteen välillä.
Kehitämme tämän tietokokonaisuuden avulla useita erilaisia malleja ja arvioimme niitä nähdaksemme, mikä niistä soveltuisi parhaiten liiketoimintaongelmamme, eli asiakaspalvelun poistumisen ongelman ratkaisemiseen.
Kuten aiemmassa luottokorttiasiakkaiden tietokokonaisuudessakin, mallimme luomiseksi joudumme suorittamaan esikäsittelyn ja päivittämään kategoriset muuttujat numeerisiksi muuttujiksi.
Nyt olemme valmiita jakamaan tietokokonaisuuden harjoitteluun/testiin ja luomaan mallimme. Aloitetaan Random Forestilla.
Tarkkuuspistemäärämme Random Forest -mallille, jonka loimme tietoliikenneyrityksen asiakkaiden poistuman ennustamiseen, on 0.89. Meidän pitäisi kuitenkin tarkastella tätä tarkemmin, koska aineisto on puolueetonta.
Voimmekin tarkastella muita arviointimittareita, kuten ristiinvalidointimatriisia, josta saamme todellisten positiivisten, väärien positiivisten, todellisten ja väärien negatiivisten, tarkkuuden, palautuksen ja f1-pistemäärän. Voimme myös tarkastella, miten voimme parantaa mallia tarkastelemalla, mitkä ominaisuudet vaikuttavat eniten ennusteeseen.
Malli ennustaa 560 todellista negatiivista tulosta, 13 väärää positiivista tulosta, 54 väärää negatiivista tulosta ja 40 todellista positiivista tulosta.
Kun arvioimme mallia Random Forest -luokittelijalla, näemme, että:
Tarkkuuspisteet ovat 0.729
Recall score on 0.372
ROC-käyrä on seuraava:
AUC-pistemäärä (roc-käyrän alapuolinen alue) on 0.83 ja f1-pistemäärä on 0,49.
Havaitsemme myös, että saadaksemme mallista parhaan suorituskyvyn, meidän on asetettava n-estimaattoriksi 30. (Tällä hetkellä mallimme käyttää 100:aa)
Voidaan edelleen tarkastella ominaisuuksien tärkeyttä nähdäksemme, millä ominaisuuksilla on suurin vaikutus ennusteeseen.
Ominaisuuksien tärkeyden perusteella voimme ehdottomasti poistaa tilat mallistamme.
Luotaan toinen malli käyttäen tukivektorikonetta.
Kun luomme mallin ja tarkastelemme tarkkuutta, huomaamme jo nyt, että Support Vector Machine -toiminnon tarkkuuspistemäärät ovat alhaisemmat kuin satunnaismetsäluokituksen.
Kun luomme mallin ja tarkastelemme tarkkuutta, huomaamme jo nyt, että tukivektorikoneen (Support Vector Machine) tarkkuuspistemäärä on alhaisempi kuin satunnaismetsäisen metsäluokituksen.
Malli ennustaa 567 todellista negatiivista vaihtoehtoa, 6 väärää positiivista vaihtoehtoa, 83 väärää negatiivista vaihtoehtoa ja 11 todellista positiivista vaihtoehtoa. Vaikka väärien positiivisten määrä laski hieman, todellisia positiivisia on huomattavasti vähemmän verrattuna RandomForestClassifieriin.
Kaikki tarkkuuspisteet(0,647) ja recall-pisteet(0,11) ovat paljon pienemmät kuin Random-luokittelijalla. Alue roc-käyrän alla (auc) on 0,83, joka on sama kuin Random Forest -luokittelijalla. Paras vaihtoehto Support Vector Machine -asteelle on 1. (joka on tällä hetkellä asetettu oletusarvoksi 3).
Luomiemme kahden ennustemallin perusteella ensimmäinen Random Forest -luokittelijalla luotu malli olisi parempi valinta. Voimme myös virittää tätä mallia ja parantaa sitä päivittämällä n_estimatorin ja poistamalla tilamuuttujan ominaisuusjoukosta paremman ennusteen aikaansaamiseksi.
Olemassa olevan kuluttajaymmärryksen avulla datan avulla yritykset voivat ennustaa asiakkaiden mahdollisia tarpeita ja ongelmia, määritellä asianmukaiset strategiat ja ratkaisut niitä vastaan, vastata heidän odotuksiinsa ja säilyttää heidän liiketoimintansa. Ennustavan analyysin ja mallintamisen perusteella yritykset voivat keskittää huomionsa kohdennetulla lähestymistavalla segmentoimalla ja tarjoamalla heille räätälöityjä ratkaisuja. Analysoimalla sitä, miten ja milloin asiakkaan elinkaaren aikana tapahtuu vaihtuvuutta palveluihin, yritys voi kehittää ennaltaehkäisevämpiä toimenpiteitä.