Análisis de la pérdida de clientes

May 29, 2021
admin

Breve descripción del análisis y predicción de la pérdida de clientes con el clasificador de árbol de decisiones.

La pérdida de clientes es uno de los problemas más importantes y desafiantes para las empresas como las compañías de tarjetas de crédito, los proveedores de servicios de cable, SASS y las compañías de telecomunicaciones de todo el mundo. Aunque no es lo más divertido de ver, las métricas de abandono de clientes pueden ayudar a las empresas a mejorar la retención de clientes.

Customer Churn Photo by freestocks on Unsplash

Podemos clasificar la fuga de clientes (también conocida como deserción de clientes) agrupándolos en diferentes categorías. El Churn contractual, que es aplicable a empresas como las compañías de cable y los proveedores de servicios SAAS, es cuando los clientes deciden no continuar con sus contratos vencidos. El Churn Voluntario, por otro lado, es cuando un cliente decide cancelar su servicio existente, lo que puede ser aplicable para empresas como los teléfonos móviles de prepago y los proveedores de suscripción de streaming. También hay ocasiones en las que los consumidores abandonan una posible compra sin completar la transacción. Podemos categorizar estos casos como churn no contractual, que es aplicable para las empresas que dependen de locales de venta al por menor, tiendas online o servicios de préstamo online. Y por último, está el churn involuntario, por ejemplo, cuando un cliente no puede pagar la factura de su tarjeta de crédito y ya no permanece con la compañía de la tarjeta de crédito.

El razonamiento del churn del cliente puede variar y requeriría un conocimiento del dominio para definirlo adecuadamente, sin embargo, algunos comunes son; la falta de uso del producto, un mal servicio y un mejor precio en otro lugar. Independientemente del razonamiento que pueda ser específico para las diferentes industrias, una cosa se aplica a todos los dominios: cuesta más adquirir nuevos clientes que retener a los existentes. Esto tiene un impacto directo en los costes operativos y en los presupuestos de marketing de la empresa.

Foto by rupixen.com on Unsplash

Debido a la significativa importancia de la pérdida de clientes dentro de un negocio, las partes interesadas están invirtiendo más tiempo y esfuerzo en averiguar el razonamiento dentro de sus organizaciones, cómo pueden predecir con precisión el tipo de clientes existentes que pueden dejar de hacer negocios con ellos y qué pueden hacer para minimizar la pérdida de clientes.

La mejor manera de evitar la fuga de clientes es conocer a tus clientes, y la mejor manera de conocer a tu cliente es a través de los datos históricos y de los nuevos clientes.

En este artículo, revisaremos algunos datos de los consumidores y veremos cómo podemos aprovechar los conocimientos de los datos y el modelado predictivo con el fin de mejorar la retención de clientes. En nuestro análisis, utilizaremos Python y una variedad de algoritmos de Machine Learning para la predicción.

Nuestro primer conjunto de datos de clientes es de una compañía de tarjetas de crédito, donde podemos revisar los atributos de los clientes como el género, la edad, la tenencia, el saldo, el número de productos a los que están suscritos, su salario estimado y si dejaron la suscripción o no.

Podemos ver nuestro conjunto de datos, pero también queremos asegurarnos de que los datos están limpios, así que como parte del proceso de limpieza, miramos los valores que faltan y los tipos de datos.

Cuando observamos los datos estadísticos, vemos que la edad media de nuestros clientes es de 39 años, el mes medio que el cliente ha sido miembro es de 5 y el salario medio estimado es de 100K.

Cuando miramos el género y la distribución geográfica del salario estimado, vemos que el salario medio estimado de los clientes masculinos es mayor que el de las mujeres en Francia y España, sin embargo en Alemania el salario medio estimado de las mujeres es mayor.

Cuando observamos la relación entre la edad y la puntuación de crédito, la relación lineal es muy débil para definir claramente la correlación.

A partir de nuestro análisis exploratorio básico, podemos definir los atributos importantes de los clientes que pueden darnos la mejor visión para predecir el tipo de clientes que pueden cambiar de opinión. Podemos continuar este análisis para responder a algunas preguntas básicas como: «¿Un salario estimado más bajo aumenta el churn?» O «¿Una puntuación de crédito más baja aumenta el churn?», etc. Podemos agrupar y resumir el conjunto de datos de diferentes maneras para obtener más información sobre los atributos de los clientes. Nos adentraremos en estos aspectos en el siguiente conjunto de datos. En este caso, podemos etiquetar nuestra variable objetivo (respuesta), que es la pérdida de clientes. Esto significa que podemos crear un modelo de clasificación y realizar diferentes métodos de algoritmos como el árbol de decisión, el bosque aleatorio, la regresión logística o las máquinas de vectores de apoyo. Cuando se trata de modelos de aprendizaje automático, buscamos dos condiciones principales; 1- Distribución normal del conjunto de características, 2- Misma escala del conjunto de características.

En este conjunto de datos, podemos seleccionar la puntuación de crédito, la geografía, el género, la edad, la permanencia y los atributos salariales estimados como el conjunto de características y el churn como la variable objetivo.

Tenemos que asegurarnos de actualizar las variables categóricas a variables numéricas ya que las técnicas de aprendizaje automático que aplicaremos requieren que todos los atributos de los clientes sean numéricos.

Además, podemos dividir aleatoriamente nuestro conjunto de datos en conjunto de datos de entrenamiento y de prueba para ajustar nuestro modelo con el conjunto de datos de entrenamiento y probar las predicciones con el conjunto de datos de prueba. La idea es entrenar el modelo con el conjunto de datos de entrenamiento y probar la predicción con el conjunto de datos de prueba. Si no utilizamos los conjuntos de datos de entrenamiento y de prueba y en su lugar utilizamos todo el conjunto de datos, el algoritmo sólo hará predicciones precisas con nuestro conjunto de datos y fallará con cualquier dato nuevo que se le suministre.

En este conjunto de datos, vamos a utilizar DecisionTreeClassifier y RandomForestClassifier para crear nuestro modelo y predicción, además de evaluarlos a ambos para ver cuál es mejor.

Based on the metrics evaluations, mientras que el 73% de las predicciones serían precisas con el Modelo Clasificador de Decisión, el 82% de las predicciones serían precisas con el Clasificador RandomForest. Preferiríamos utilizar el Random Forest en este caso.

Cuando observamos la distribución de los clientes que abandonan frente a los que no abandonan, vemos que los datos son imparciales. Esto significa que no podemos confiar únicamente en las puntuaciones de la métrica de precisión para los modelos de predicción. Veamos el segundo conjunto de datos de clientes para ver si podemos hacer un mejor análisis y modelos de predicción.

Esta vez estamos viendo una empresa de telecomunicaciones y sus atributos de clientes existentes, como su plan actual, cargos, ubicación en términos de estado, cantidad de llamadas de servicio al cliente, duración de la cuenta y deserción.

No faltan datos en el conjunto de datos y los tipos de datos son correctos. Veamos los valores categóricos y sus valores únicos.

Cuando miramos el estado y el churn vemos que California y Nueva Jersey son los dos estados con mayor tasa de churn.

También vemos que la tasa de abandono es más alta con los clientes del plan internacional y más baja con los clientes que tienen el plan de correo de voz.

Hay muchos más clientes que se quedan con la compañía que los que la dejan como cliente. Si se recuerda el análisis anterior con la compañía de tarjetas de crédito, esto significa desequilibrios en los datos y tiene un impacto en el desarrollo del modelo de predicción. (Un aspecto importante que no mencionamos antes es que no utilizamos identificadores únicos como el número de teléfono, el identificador de cliente o el número de cuenta para la selección de características.)

El mal servicio de atención al cliente es una de las razones más conocidas de la pérdida de clientes. En nuestro caso, podemos ver una fuerte relación lineal positiva con la cantidad de llamadas de servicio al cliente y la tasa de abandono.

Con este conjunto de datos, desarrollemos múltiples modelos diferentes y evaluémoslos para ver cuál sería el más adecuado para resolver nuestro problema empresarial de abandono de clientes.

Al igual que con el anterior conjunto de datos de clientes de tarjetas de crédito, tenemos que realizar un preprocesamiento y actualizar las variables categóricas a variables numéricas para crear nuestro modelo.

Ahora estamos listos para dividir el conjunto de datos para entrenar/probar y crear nuestros modelos. Empecemos con el bosque aleatorio.

Nuestra puntuación de precisión para el Modelo de Bosque Aleatorio que creamos para predecir la pérdida de clientes de la compañía de telecomunicaciones es de 0.89. Sin embargo, deberíamos analizar esto más a fondo ya que los datos son imparciales.

Podemos revisar métricas de evaluación adicionales, como la matriz de validación cruzada que nos dará la cantidad de verdaderos positivos, falsos positivos, verdaderos y falsos negativos, precisión, recuerdo y puntuación f1. También podemos ver qué podemos hacer para mejorar el modelo mirando qué características contribuyen más a la predicción.

El modelo predice 560 verdaderos negativos, 13 falsos positivos, 54 falsos negativos, 40 verdaderos positivos.

Cuando evaluamos el modelo con el clasificador Random Forest, vemos que:

La puntuación de precisión es 0.729

La puntuación de recuperación es de 0,372

La curva ROC es la siguiente:

La puntuación AUC (el área bajo la curva roc) es de 0.83 y la puntuación f1 es de 0,49.

También descubrimos que, para obtener el mejor rendimiento del modelo, necesitamos establecer el estimador n en 30. (En la actualidad, nuestro modelo utiliza 100)

Podemos seguir observando la importancia de las características para ver qué características tienen el mayor impacto en la predicción.

Mejor en la importancia de la característica, podemos eliminar definitivamente el estado de nuestro modelo.

Creemos otro modelo usando Support Vector Machine.

Cuando creamos el modelo y miramos la precisión, ya vemos que la puntuación de la precisión de la Máquina de Vectores de Apoyo es menor que la de la Clasificación del Bosque Aleatorio.

Cuando creamos el modelo y miramos la precisión, ya vemos que la puntuación de precisión de la máquina de vectores de apoyo es menor que la de la clasificación de Random Forest.

El modelo predice 567 Verdaderos Negativos, 6 Falsos Positivos, 83 Falsos Negativos, 11 Verdaderos Positivos. Aunque el recuento de Falsos Positivos bajó ligeramente, los Verdaderos Positivos son significativamente menores en comparación con RandomForestClassifier.

Tanto la puntuación de precisión (0,647) como la de recuperación (0,11) son mucho menores que las del clasificador aleatorio. El área bajo la curva roc (auc) es de 0,83, que es la misma que la del clasificador Random Forest. La mejor opción para el grado de la máquina de vectores de apoyo es 1. (que actualmente se establece como el valor predeterminado de 3).

Basado en los dos modelos predictivos que creamos el primero que creamos con el clasificador Random Forest sería una mejor opción. También podemos afinar este modelo y mejorarlo actualizando el n_estimador y eliminando la variable de estado del conjunto de características para mejorar la predicción.

Con los conocimientos existentes sobre los consumidores a través de los datos, las empresas pueden predecir las posibles necesidades y problemas de los clientes, definir estrategias y soluciones adecuadas frente a ellos, satisfacer sus expectativas y conservar su negocio. Basándose en el análisis predictivo y el modelado, las empresas pueden centrar su atención con un enfoque específico, segmentando y ofreciendo soluciones personalizadas. Analizar cómo y cuándo se produce la pérdida de clientes en su ciclo de vida con los servicios permitirá a la empresa adoptar medidas más preventivas.

Deja una respuesta

Tu dirección de correo electrónico no será publicada.