Com base na nossa análise exploratória básica, podemos definir os atributos importantes do cliente que nos podem dar a melhor visão para prever o tipo de clientes que podem churn. Podemos continuar esta análise para responder a algumas questões básicas, tais como, “O salário mais baixo estimado aumenta a rotatividade? Ou “A redução da pontuação de crédito aumenta a rotatividade?” e assim por diante. Podemos agrupar e resumir o conjunto de dados de diferentes maneiras para obter mais informações sobre os atributos dos clientes. Vamos mergulhar em mais destes no próximo conjunto de dados. Por enquanto, vamos começar a pensar em prever que clientes irão churn.
Neste caso, podemos rotular nossa variável alvo (resposta) que é churn. Isto significa que podemos criar um modelo de classificação e executar diferentes métodos de algoritmos como Árvore de Decisão, Floresta Aleatória, Regressão Logística ou Máquinas Vetoriais de Suporte. Quando se trata de modelos de aprendizagem de máquinas, procuramos duas condições principais; 1- Distribuição Normal do conjunto de características, 2- Mesma Escala do conjunto de características.
Neste conjunto de dados, podemos seleccionar a pontuação de crédito, geografia, sexo, idade, posse e atributos de salário estimado como o conjunto de características e o churn como a variável alvo.
>
>
>
>
>
>
Temos de nos certificar que actualizamos as variáveis categóricas para variáveis numéricas, uma vez que as técnicas de aprendizagem da máquina que vamos aplicar exigem que todos os atributos dos clientes sejam numéricos.
Podemos dividir aleatoriamente o nosso conjunto de dados em conjunto de dados de treinamento e testes para adequar o nosso modelo ao conjunto de dados de treinamento e testar as previsões com o conjunto de dados de testes. A idéia é treinar o modelo com o conjunto de dados de treinamento e testar a previsão com o conjunto de dados de teste. Se não usamos o conjunto de dados de treinamento e teste e usamos todo o conjunto de dados, o algoritmo só fará previsões precisas com nosso conjunto de dados e falhará com qualquer novo dado que lhe seja fornecido.
Neste conjunto de dados, vamos usar o DecisionTreeClassifier e o RandomForestClassifier para criar nosso modelo e previsão, avaliando-os ainda mais para ver qual deles é melhor.
Based on the metrics evaluations, Enquanto 73% das previsões seriam precisas com o Modelo de Classificação de Decisão, 82% das previsões seriam precisas com o RandomForestClassifier. Nós preferimos usar o Random Forest neste caso.
Quando olhamos para a distribuição dos clientes que churn vs não churn, vemos que os dados são imparciais. Isto significa que não podemos confiar apenas em pontuações métricas de precisão para os modelos de previsão. Vamos olhar para o segundo conjunto de dados do cliente para ver se podemos fazer uma melhor análise e modelos de previsão.
Desta vez estamos olhando para uma empresa de telecomunicações e são atributos existentes do cliente, tais como seu plano atual, encargos, localização em termos de estado, quantidade de chamadas de atendimento ao cliente, duração da conta e churn.
>
>
Não faltam dados dentro do conjunto de dados e os tipos de dados estão corretos. Vamos olhar para os valores categóricos e seus valores únicos.
>
Quando olhamos para o estado e churn vemos que a Califórnia e New Jersey são os estados com a maior taxa de churn.
>
Vemos também que a taxa de rotatividade é maior com os clientes do plano internacional e menor com os clientes que têm plano de correio de voz.
>
Há muito mais clientes que ficam com a empresa do que deixando a empresa como cliente. Se você se lembrar da análise anterior com a empresa de cartões de crédito, isso significa desequilíbrios nos dados e tem um impacto no desenvolvimento do modelo de previsão. (Um aspecto importante que não mencionamos anteriormente é que não temos uso de identificadores únicos, como número de telefone, identificação de cliente ou número de conta para seleção de recursos.)
O atendimento ao cliente é uma das razões bem conhecidas para a rotatividade de clientes. No nosso caso, podemos ver uma forte relação linear positiva com a quantidade de chamadas e taxa de rotatividade.
>
Com este conjunto de dados, vamos desenvolver vários modelos diferentes e avaliá-los para ver qual seria o mais adequado para resolver o nosso problema de rotatividade de clientes.
>
>
>
>
Simplesmente ao conjunto de dados anteriores de clientes de cartão de crédito, precisamos realizar o pré-processamento e atualizar as variáveis categóricas para variáveis numéricas a fim de criar nosso modelo.
Agora estamos prontos para dividir o conjunto de dados para treinar/teste e criar nossos modelos. Vamos começar com Random Forest.
A nossa pontuação de precisão para o Modelo Florestal Aleatório que criámos para prever a rotatividade dos clientes da empresa de telecomunicações é 0.89. No entanto, devemos analisar isto mais adiante, pois os dados são imparciais.
Podemos rever métricas de avaliação adicionais, tais como matriz de validação cruzada que nos dará a quantidade de verdadeiros positivos, falsos positivos, verdadeiros e falsos negativos, precisão, recall e pontuação f1. Também podemos ver o que podemos fazer para melhorar o modelo, observando quais as características que mais contribuem para a previsão.
>
>
O modelo prevê 560 Negativos Verdadeiros, 13 Positivos Falsos, 54 Negativos Falsos, 40 Positivos Verdadeiros.
Quando avaliamos o modelo com o Random Forest Classifier, vemos que:
A pontuação de precisão é 0.729
>
Precisão é 0,372
Curva de Random Forest Classifier:
>
>
>
>
>
>
Precisão (a área sob a curva roc) é 0.83 e a pontuação f1 é 0,49,
AUC (a área sob a curva roc) é 0. Também descobrimos que, para obter o melhor desempenho do modelo, precisamos ajustar o estimador n para 30. (Atualmente, nosso modelo usa 100)
Posicionamos mais adiante a importância do recurso para ver quais recursos têm maior impacto na previsão.
>
>
Melhor sobre a importância da característica, podemos definitivamente remover o estado do nosso modelo.
>
Vamos criar outro modelo usando a Máquina Vetorial de Suporte.
>
>
> >
Quando criamos o modelo e olhamos para a precisão, já vemos que a pontuação de precisão da Máquina Vetorial de Suporte é menor que a da Classificação Florestal Aleatória.