Customer Churn Analysis

5月 29, 2021
admin

Brief Overview of Customer Churn Analysis and Prediction with Decision Tree Classifier.

Customer Churn はクレジットカード会社、ケーブル サービス プロバイダ、SASS、テレコム会社などの世界中の企業にとって最も重要かつ困難な問題の 1 つとなっています。 見ていて楽しいものではありませんが、顧客解約の測定基準は、企業が顧客保持を改善するのに役立ちます。

Customer Churn Photo by freestocks on Unsplash

顧客解約(顧客減少としても知られています)は異なるカテゴリーにグループ化することによって、分類することが可能です。 ケーブル会社やSAASサービスプロバイダーなどの企業に適用される契約型解約は、顧客が期限切れの契約を継続しないことを決定する場合である。 一方、Voluntary Churnは、顧客が既存のサービスを解約することを決定した場合であり、プリペイド携帯電話やストリーミング配信のプロバイダーなどの企業に適用されることがある。 また、消費者が購入の可能性がある商品について、取引を完了することなく離脱する場合もある。 このようなケースは非契約型解約に分類され、小売店やオンラインショップ、オンライン借上げサービスに依存する企業に適用されます。

顧客離れの理由はさまざまで、適切に定義するためには専門知識が必要ですが、一般的なものとしては、製品の使用不足、サービスの質の低下、他で購入したほうが良い価格などがあります。 しかし、その理由は様々であり、適切に定義するためにはその分野の知識が必要となります。 これは、企業内の運営コストやマーケティング予算に直接的な影響を与えます。

Photo by rupixen.com on Unsplash

ビジネスにおける顧客解約の重要性から、関係者は組織内の理由、取引を停止できる既存顧客のタイプを正確に予測する方法、顧客解約を最小限に抑えるためにできることを見つけることに、より多くの時間と労力を投じています。

顧客離れを回避する最善の方法は、顧客を知ることであり、顧客を知る最善の方法は、過去の顧客データと新しい顧客データです。

この記事では、いくつかの消費者データを調べ、顧客維持を改善するためにデータの洞察と予測モデリングをどのように活用できるかを見ていきます。 最初の顧客データセットはクレジットカード会社のもので、性別、年齢、勤続年数、残高、加入している商品の数、推定給与、加入を停止したかどうかなどの顧客属性を確認することができます。

データセットを確認できますが、データがきれいであることも確認したいので、洗浄プロセスの一環として、欠損値やデータ タイプに注目します。

統計的洞察を見ると。 お客様の平均年齢は39歳、平均勤続年数は5ヶ月、推定平均給与は10万円となっています。

想定給与の性別と地域分布を見ると、フランスとスペインでは男性顧客の推定平均給与が女性よりも高くなっていますが、ドイツでは女性顧客の推定平均給与が高くなることが分かりました。

年齢とクレジットスコアの関係を見てみると、相関関係を明確に定義するには直線関係が非常に弱く、年齢とクレジットスコアの関係は、年齢とクレジットスコアの関係である。

基本の探索的分析に基づいて、解約できる顧客のタイプを予測するには最高の洞察を与えることができる重要な顧客特性を定義することができます。 この分析を続けて、「推定給与が低いと解約が増えるのか? あるいは、「クレジットスコアが低いと解約が増えるのか」等々。 また、データセットを様々な方法でグループ化し、要約することで、顧客属性からより多くのインサイトを得ることができます。 次のデータセットでは、これらの詳細について掘り下げていきます。

この場合、私たちのターゲット(応答)変数であるchurnにラベルを付けることができます。 これは、分類モデルを作成し、決定木、ランダムフォレスト、ロジスティック回帰、またはサポートベクターマシンなどの異なるアルゴリズム手法を実行できることを意味します。 このデータセットでは、特徴セットとしてクレジットスコア、地域、性別、年齢、在職期間、推定給与の属性を選択し、ターゲット変数としてchurnを選択することができます。

適用予定の機械学習技術ではすべての顧客属性を数値にする必要があるので、カテゴリ変数を確実に数値変数へ更新する必要があります。

さらに、学習データセットでモデルを適合し、テストデータセットで予測結果をテストするために、データセットを学習とテストにランダムに分割することが可能です。 このアイデアは、訓練データセットでモデルを訓練し、テストデータセットで予測をテストすることです。

このデータセットで、 DecisionTreeClassifier と RandomForestClassifier を使用して、モデルと予測を作成し、さらにどちらが優れているか両者を評価しましょう。

Based on the metrics evaluations, 決定分類器モデルでは73%の予測精度が得られるのに対して、RandomForestClassifierでは82%の予測精度が得られます。

解約する顧客と解約しない顧客の分布を見ると、データは公平であることがわかります。 これは、予測モデルの精度指標のスコアだけに頼れないということです。 より良い分析と予測モデルができるかどうか、2番目の顧客データセットを見てみましょう。

今回は、通信会社と、現在のプラン、料金、州から見た場所、顧客サービスコール量、アカウントの長さと解約などの既存の顧客属性を見ています。

データセット内に欠損データはなく、データ型も正しいです。 9038>

州と解約を見ると、カリフォルニアとニュージャージーが解約率の高い州のトップであることがわかります。

また、国際回線の顧客は解約率が高く、音声メールプランの顧客は低くなっていることがわかりました。 先ほどのクレジットカード会社の分析を思い出していただくと、これはデータのアンバランスを意味し、予測モデルの開発に影響を与えるものです。 (先ほど言及しなかった重要な点として、特徴量の選択に電話番号、顧客ID、口座番号といった固有の識別子を使用しないことが挙げられます。)

カスタマーサービスの悪さは、顧客離れのよく知られた理由の1つです。 このケースでは、顧客サービスのコール量と解約率に強い正の線形関係が見られます。

このデータセットで、複数の異なるモデルを開発して、顧客解約のビジネス問題を解決するにはどれが最適か評価しましょう。

先のクレジットカード顧客データセットと同様に、前処理を実行して、モデルを作るためにカテゴリー変数を数値変数に更新する必要があります。

さて、データセットをトレーニング/テストに分割して、モデルを作成する準備が整いました。 まずはRandom Forestから。

通信会社顧客の解約を予測するために作成したRandom Forest Modelの精度スコアは、0.1%でした。89. しかし、データが公平であるため、これをさらに分析する必要があります。

我々は、真陽性、偽陽性、真および偽陰性、精度、再現性およびf1スコアの量を与える交差検証マトリックスなどの追加の評価メトリックを検討することができます。 また、どの特徴が予測に最も貢献するかを調べることで、モデルを改善できるかを確認できます。

モデルは560件の真陰性、13件の偽陽性、54件の偽陰性、40件の真陽性を予測する。

Random Forest Classifierでモデルを評価すると、次のようになります:

精度スコアは0.729

Recall score is 0.372

ROC curve is follows:

AUC score (roc curve under the area) is 0.1

のような結果になる。83、f1スコアは0.49です。

また、モデルから最高のパフォーマンスを得るために、n推定量を30に設定する必要があることがわかりました。 (現在、我々のモデルは100を使用している)

さらに、どの特徴が予測に最も影響を与えるかを見るために、特徴の重要度を見ることができる。

feature importanceで一番良いのは、モデルから状態を確実に除去できることです。

サポートベクターマシンを使用して別のモデルを作成しましょう。

モデルの作成と精度を見てみると、すでに Support Vector Machine は Random Forest 分類より精度が低いことがわかっています。

私たちがモデルを作成して精度を見たとき、すでにサポートベクターマシンの精度はRandom Forest Classificationより低くなっていることが分かります。

モデルでは、567件の真陰性、6件の偽陽性、83件の偽陰性、11件の真陽性が予測されました。 False Positiveの数は若干減ったものの、True PositivesはRandomForestClassifierと比較してかなり少なくなっています。

精度スコア(0.647)と再現スコア(0.11)は共にRandomClassifierよりはるかに低くなっていることが分かります。 また、Roc曲線下面積(auc)は0.83であり、Random Forest Classifierと同じである。 サポートベクターマシンの次数の最適なオプションは1です。(現在はデフォルト値の3として設定されています)

作成した2つの予測モデルに基づいて、Random Forest Classifierで作成した最初のものがより良い選択となります。 また、このモデルを調整し、より良い予測のために n_estimator を更新し、特徴セットから状態変数を削除することによって改善することができます。

データによる既存の消費者の洞察を使用して、企業は顧客の考えられるニーズや問題を予測し、それらに対する適切な戦略やソリューションを定義し、顧客の期待に答え、ビジネスを維持することが可能です。 予測分析およびモデリングに基づいて、企業は、セグメント化し、カスタマイズされたソリューションを提供することで、ターゲットを絞ったアプローチで注意を向けることができます。 また、顧客のライフサイクルの中で、いつ、どのように解約が起こっているかを分析することで、企業はより先手を打った対策を講じることができます。

コメントを残す

メールアドレスが公開されることはありません。