Customer Churn Analysis

5月 29, 2021

admin

Brief Overview of Customer Churn Analysis and Prediction with Decision Tree Classifier.

Customer Churn はクレジットカード会社、ケーブルサービスプロバイダ、SASS、テレコム会社などの世界中の企業にとって最も重要かつ困難な問題の 1 つとなっています。見ていて楽しいものではありませんが、顧客解約の測定基準は、企業が顧客保持を改善するのに役立ちます。

Customer Churn Photo by freestocks on Unsplash

顧客解約（顧客減少としても知られています）は異なるカテゴリーにグループ化することによって、分類することが可能です。ケーブル会社やSAASサービスプロバイダーなどの企業に適用される契約型解約は、顧客が期限切れの契約を継続しないことを決定する場合である。一方、Voluntary Churnは、顧客が既存のサービスを解約することを決定した場合であり、プリペイド携帯電話やストリーミング配信のプロバイダーなどの企業に適用されることがある。また、消費者が購入の可能性がある商品について、取引を完了することなく離脱する場合もある。このようなケースは非契約型解約に分類され、小売店やオンラインショップ、オンライン借上げサービスに依存する企業に適用されます。

顧客離れの理由はさまざまで、適切に定義するためには専門知識が必要ですが、一般的なものとしては、製品の使用不足、サービスの質の低下、他で購入したほうが良い価格などがあります。しかし、その理由は様々であり、適切に定義するためにはその分野の知識が必要となります。これは、企業内の運営コストやマーケティング予算に直接的な影響を与えます。

ビジネスにおける顧客解約の重要性から、関係者は組織内の理由、取引を停止できる既存顧客のタイプを正確に予測する方法、顧客解約を最小限に抑えるためにできることを見つけることに、より多くの時間と労力を投じています。

顧客離れを回避する最善の方法は、顧客を知ることであり、顧客を知る最善の方法は、過去の顧客データと新しい顧客データです。

この記事では、いくつかの消費者データを調べ、顧客維持を改善するためにデータの洞察と予測モデリングをどのように活用できるかを見ていきます。最初の顧客データセットはクレジットカード会社のもので、性別、年齢、勤続年数、残高、加入している商品の数、推定給与、加入を停止したかどうかなどの顧客属性を確認することができます。

データセットを確認できますが、データがきれいであることも確認したいので、洗浄プロセスの一環として、欠損値やデータタイプに注目します。

基本の探索的分析に基づいて、解約できる顧客のタイプを予測するには最高の洞察を与えることができる重要な顧客特性を定義することができます。この分析を続けて、「推定給与が低いと解約が増えるのか？あるいは、「クレジットスコアが低いと解約が増えるのか」等々。また、データセットを様々な方法でグループ化し、要約することで、顧客属性からより多くのインサイトを得ることができます。次のデータセットでは、これらの詳細について掘り下げていきます。

この場合、私たちのターゲット（応答）変数であるchurnにラベルを付けることができます。これは、分類モデルを作成し、決定木、ランダムフォレスト、ロジスティック回帰、またはサポートベクターマシンなどの異なるアルゴリズム手法を実行できることを意味します。このデータセットでは、特徴セットとしてクレジットスコア、地域、性別、年齢、在職期間、推定給与の属性を選択し、ターゲット変数としてchurnを選択することができます。

適用予定の機械学習技術ではすべての顧客属性を数値にする必要があるので、カテゴリ変数を確実に数値変数へ更新する必要があります。

さらに、学習データセットでモデルを適合し、テストデータセットで予測結果をテストするために、データセットを学習とテストにランダムに分割することが可能です。このアイデアは、訓練データセットでモデルを訓練し、テストデータセットで予測をテストすることです。

このデータセットで、 DecisionTreeClassifier と RandomForestClassifier を使用して、モデルと予測を作成し、さらにどちらが優れているか両者を評価しましょう。

Based on the metrics evaluations, 決定分類器モデルでは73%の予測精度が得られるのに対して、RandomForestClassifierでは82%の予測精度が得られます。

解約する顧客と解約しない顧客の分布を見ると、データは公平であることがわかります。これは、予測モデルの精度指標のスコアだけに頼れないということです。より良い分析と予測モデルができるかどうか、2番目の顧客データセットを見てみましょう。

今回は、通信会社と、現在のプラン、料金、州から見た場所、顧客サービスコール量、アカウントの長さと解約などの既存の顧客属性を見ています。

データセット内に欠損データはなく、データ型も正しいです。 9038>

州と解約を見ると、カリフォルニアとニュージャージーが解約率の高い州のトップであることがわかります。

また、国際回線の顧客は解約率が高く、音声メールプランの顧客は低くなっていることがわかりました。先ほどのクレジットカード会社の分析を思い出していただくと、これはデータのアンバランスを意味し、予測モデルの開発に影響を与えるものです。 (先ほど言及しなかった重要な点として、特徴量の選択に電話番号、顧客ID、口座番号といった固有の識別子を使用しないことが挙げられます。)

カスタマーサービスの悪さは、顧客離れのよく知られた理由の1つです。このケースでは、顧客サービスのコール量と解約率に強い正の線形関係が見られます。