Análise de rotatividade do cliente

Mai 29, 2021
admin

Visão geral da análise de rotatividade do cliente e previsão com o classificador de árvore de decisão.

A rotatividade do cliente é um dos problemas mais importantes e desafiadores para empresas como empresas de cartões de crédito, fornecedores de serviços de cabo, SASS e empresas de telecomunicações em todo o mundo. Mesmo que não seja o mais divertido de se ver, as métricas de rotatividade do cliente podem ajudar as empresas a melhorar a retenção de clientes.

Customer Churn Photo by freestocks on Unsplash

Podemos classificar a rotatividade dos clientes (também conhecida como angústia do cliente) agrupando-os em diferentes categorias. A rotatividade contratual, que é aplicável a negócios como empresas de cabo e prestadores de serviços SAAS, é quando os clientes decidem não continuar com seus contratos vencidos. O Churn Voluntário, por outro lado, é quando um cliente decide cancelar seu serviço existente, que pode ser aplicável a empresas como operadoras de celulares pré-pagos e provedores de assinatura de streaming. Há também momentos em que os consumidores deixam uma possível compra sem concluir a transação. Podemos categorizar estes casos como churn não contratual, que é aplicável para empresas que dependem de locais de varejo, lojas on-line ou serviços de empréstimo on-line. E por último, há o churn involuntário, por exemplo, onde um cliente não pode pagar a conta do cartão de crédito e não fica mais com a empresa de cartão de crédito.

O raciocínio do churn do cliente pode variar e exigiria conhecimento de domínio para definir corretamente, por mais comuns que alguns sejam; falta de uso do produto, mau serviço e melhor preço em outro lugar. Independentemente do raciocínio que possa ser específico para diferentes indústrias, uma coisa se aplica a cada domínio: custa mais adquirir novos clientes do que reter os já existentes. Isto tem um impacto direto nos custos operacionais e orçamentos de marketing dentro da empresa.

>

Foto by rupixen.com on Unsplash

Devido à importância significativa da rotatividade de clientes dentro de um negócio, as partes interessadas estão investindo mais tempo e esforço para descobrir o raciocínio dentro de suas organizações, como podem prever com precisão o tipo de clientes existentes que podem parar de fazer negócios com eles e o que podem fazer para minimizar a rotatividade dos clientes.

A melhor maneira de evitar a rotatividade de clientes é conhecer seus clientes, e a melhor maneira de conhecer seu cliente é através de dados históricos e de novos clientes.

Neste artigo, analisaremos alguns dados do consumidor e veremos como podemos aproveitar as percepções de dados e a modelagem preditiva para melhorar a retenção de clientes. Em nossa análise, usaremos Python e variedade de algoritmos de Machine Learning para previsão.

Nosso primeiro conjunto de dados de clientes é de uma empresa de cartão de crédito, onde somos capazes de rever atributos do cliente, tais como sexo, idade, posse, saldo, número de produtos que eles são subscritos, seu salário estimado e se eles pararam a assinatura ou não.

>

>

Podemos ver o nosso conjunto de dados mas também queremos ter a certeza de que os dados estão limpos, por isso, como parte do processo de limpeza, olhamos para os valores e tipos de dados em falta.

Quando olhamos para os insights estatísticos, vemos que a idade média dos nossos clientes é de 39 anos, a média mensal dos nossos clientes é de 5 anos e o salário médio estimado é de 100K.

>

>

>

>

>

Quando olhamos para o género e distribuição geográfica do salário estimado, vemos que o salário médio estimado do cliente masculino é superior ao das mulheres em França e Espanha, no entanto na Alemanha o salário médio estimado dos clientes do sexo feminino é superior.

>

>

Quando olhamos para a relação entre idade e pontuação de crédito, a relação linear é muito fraca, a fim de definir claramente a correlação.

>

Com base na nossa análise exploratória básica, podemos definir os atributos importantes do cliente que nos podem dar a melhor visão para prever o tipo de clientes que podem churn. Podemos continuar esta análise para responder a algumas questões básicas, tais como, “O salário mais baixo estimado aumenta a rotatividade? Ou “A redução da pontuação de crédito aumenta a rotatividade?” e assim por diante. Podemos agrupar e resumir o conjunto de dados de diferentes maneiras para obter mais informações sobre os atributos dos clientes. Vamos mergulhar em mais destes no próximo conjunto de dados. Por enquanto, vamos começar a pensar em prever que clientes irão churn.

Neste caso, podemos rotular nossa variável alvo (resposta) que é churn. Isto significa que podemos criar um modelo de classificação e executar diferentes métodos de algoritmos como Árvore de Decisão, Floresta Aleatória, Regressão Logística ou Máquinas Vetoriais de Suporte. Quando se trata de modelos de aprendizagem de máquinas, procuramos duas condições principais; 1- Distribuição Normal do conjunto de características, 2- Mesma Escala do conjunto de características.

Neste conjunto de dados, podemos seleccionar a pontuação de crédito, geografia, sexo, idade, posse e atributos de salário estimado como o conjunto de características e o churn como a variável alvo.

>

>

>

>>

>

Temos de nos certificar que actualizamos as variáveis categóricas para variáveis numéricas, uma vez que as técnicas de aprendizagem da máquina que vamos aplicar exigem que todos os atributos dos clientes sejam numéricos.

Podemos dividir aleatoriamente o nosso conjunto de dados em conjunto de dados de treinamento e testes para adequar o nosso modelo ao conjunto de dados de treinamento e testar as previsões com o conjunto de dados de testes. A idéia é treinar o modelo com o conjunto de dados de treinamento e testar a previsão com o conjunto de dados de teste. Se não usamos o conjunto de dados de treinamento e teste e usamos todo o conjunto de dados, o algoritmo só fará previsões precisas com nosso conjunto de dados e falhará com qualquer novo dado que lhe seja fornecido.

Neste conjunto de dados, vamos usar o DecisionTreeClassifier e o RandomForestClassifier para criar nosso modelo e previsão, avaliando-os ainda mais para ver qual deles é melhor.

Based on the metrics evaluations, Enquanto 73% das previsões seriam precisas com o Modelo de Classificação de Decisão, 82% das previsões seriam precisas com o RandomForestClassifier. Nós preferimos usar o Random Forest neste caso.

Quando olhamos para a distribuição dos clientes que churn vs não churn, vemos que os dados são imparciais. Isto significa que não podemos confiar apenas em pontuações métricas de precisão para os modelos de previsão. Vamos olhar para o segundo conjunto de dados do cliente para ver se podemos fazer uma melhor análise e modelos de previsão.

Desta vez estamos olhando para uma empresa de telecomunicações e são atributos existentes do cliente, tais como seu plano atual, encargos, localização em termos de estado, quantidade de chamadas de atendimento ao cliente, duração da conta e churn.

>

>

Não faltam dados dentro do conjunto de dados e os tipos de dados estão corretos. Vamos olhar para os valores categóricos e seus valores únicos.

>

Quando olhamos para o estado e churn vemos que a Califórnia e New Jersey são os estados com a maior taxa de churn.

>

Vemos também que a taxa de rotatividade é maior com os clientes do plano internacional e menor com os clientes que têm plano de correio de voz.

>

Há muito mais clientes que ficam com a empresa do que deixando a empresa como cliente. Se você se lembrar da análise anterior com a empresa de cartões de crédito, isso significa desequilíbrios nos dados e tem um impacto no desenvolvimento do modelo de previsão. (Um aspecto importante que não mencionamos anteriormente é que não temos uso de identificadores únicos, como número de telefone, identificação de cliente ou número de conta para seleção de recursos.)

O atendimento ao cliente é uma das razões bem conhecidas para a rotatividade de clientes. No nosso caso, podemos ver uma forte relação linear positiva com a quantidade de chamadas e taxa de rotatividade.

>

Com este conjunto de dados, vamos desenvolver vários modelos diferentes e avaliá-los para ver qual seria o mais adequado para resolver o nosso problema de rotatividade de clientes.

>

>

>

>

Simplesmente ao conjunto de dados anteriores de clientes de cartão de crédito, precisamos realizar o pré-processamento e atualizar as variáveis categóricas para variáveis numéricas a fim de criar nosso modelo.

Agora estamos prontos para dividir o conjunto de dados para treinar/teste e criar nossos modelos. Vamos começar com Random Forest.

A nossa pontuação de precisão para o Modelo Florestal Aleatório que criámos para prever a rotatividade dos clientes da empresa de telecomunicações é 0.89. No entanto, devemos analisar isto mais adiante, pois os dados são imparciais.

Podemos rever métricas de avaliação adicionais, tais como matriz de validação cruzada que nos dará a quantidade de verdadeiros positivos, falsos positivos, verdadeiros e falsos negativos, precisão, recall e pontuação f1. Também podemos ver o que podemos fazer para melhorar o modelo, observando quais as características que mais contribuem para a previsão.

>

>

O modelo prevê 560 Negativos Verdadeiros, 13 Positivos Falsos, 54 Negativos Falsos, 40 Positivos Verdadeiros.

Quando avaliamos o modelo com o Random Forest Classifier, vemos que:

A pontuação de precisão é 0.729

>

Precisão é 0,372

Curva de Random Forest Classifier:

>

>

>>

>

>

Precisão (a área sob a curva roc) é 0.83 e a pontuação f1 é 0,49,

AUC (a área sob a curva roc) é 0. Também descobrimos que, para obter o melhor desempenho do modelo, precisamos ajustar o estimador n para 30. (Atualmente, nosso modelo usa 100)

Posicionamos mais adiante a importância do recurso para ver quais recursos têm maior impacto na previsão.

>

>

Melhor sobre a importância da característica, podemos definitivamente remover o estado do nosso modelo.

>

Vamos criar outro modelo usando a Máquina Vetorial de Suporte.

>

>

>>

Quando criamos o modelo e olhamos para a precisão, já vemos que a pontuação de precisão da Máquina Vetorial de Suporte é menor que a da Classificação Florestal Aleatória.

>

>

>>

>>888888>>

>

Quando criamos o modelo e olhamos a exatidão, já vemos que a pontuação de exatidão da Máquina Vetorial de Apoio é menor que a da Classificação Florestal Aleatória.

>

>

>

O modelo prevê 567 Negativos Verdadeiros, 6 Falsos Positivos, 83 Falsos Negativos, 11 Positivos Verdadeiros. Mesmo que a contagem de Falsos Positivos tenha diminuído ligeiramente, os Verdadeiros Positivos são significativamente menos comparados com o RandomForestClassifier.

>

>

>

Bambos a pontuação de precisão(0,647) e a pontuação de recall(0,11) é muito inferior à do Classificador Aleatório. A área sob a curva roc (auc) é 0,83 que é a mesma que o Classificador da Floresta Aleatória. A melhor opção para o grau de Máquina Vetorial de Suporte é 1 (que é atualmente definido como o valor padrão de 3).

Baseado nos dois modelos de previsão que criamos o primeiro com o Random Forest Classifier seria uma escolha melhor. Também podemos afinar este modelo e melhorá-lo atualizando o n_estimator e removendo a variável de estado do conjunto de recursos para melhor previsão.

Com a percepção do consumidor através dos dados existentes, as empresas podem prever as possíveis necessidades e problemas dos clientes, definir estratégias e soluções adequadas contra eles, atender às suas expectativas e manter seus negócios. Com base na análise preditiva e modelagem, as empresas podem focar sua atenção com uma abordagem orientada, segmentando e oferecendo-lhes soluções personalizadas. Analisar como e quando a agitação está acontecendo no ciclo de vida do cliente com os serviços permitirá que a empresa apresente medidas mais preventivas.

Deixe uma resposta

O seu endereço de email não será publicado.