Análisis de la pérdida de clientes
Breve descripción del análisis y predicción de la pérdida de clientes con el clasificador de árbol de decisiones.
La pérdida de clientes es uno de los problemas más importantes y desafiantes para las empresas como las compañías de tarjetas de crédito, los proveedores de servicios de cable, SASS y las compañías de telecomunicaciones de todo el mundo. Aunque no es lo más divertido de ver, las métricas de abandono de clientes pueden ayudar a las empresas a mejorar la retención de clientes.
Podemos clasificar la fuga de clientes (también conocida como deserción de clientes) agrupándolos en diferentes categorías. El Churn contractual, que es aplicable a empresas como las compañías de cable y los proveedores de servicios SAAS, es cuando los clientes deciden no continuar con sus contratos vencidos. El Churn Voluntario, por otro lado, es cuando un cliente decide cancelar su servicio existente, lo que puede ser aplicable para empresas como los teléfonos móviles de prepago y los proveedores de suscripción de streaming. También hay ocasiones en las que los consumidores abandonan una posible compra sin completar la transacción. Podemos categorizar estos casos como churn no contractual, que es aplicable para las empresas que dependen de locales de venta al por menor, tiendas online o servicios de préstamo online. Y por último, está el churn involuntario, por ejemplo, cuando un cliente no puede pagar la factura de su tarjeta de crédito y ya no permanece con la compañía de la tarjeta de crédito.
El razonamiento del churn del cliente puede variar y requeriría un conocimiento del dominio para definirlo adecuadamente, sin embargo, algunos comunes son; la falta de uso del producto, un mal servicio y un mejor precio en otro lugar. Independientemente del razonamiento que pueda ser específico para las diferentes industrias, una cosa se aplica a todos los dominios: cuesta más adquirir nuevos clientes que retener a los existentes. Esto tiene un impacto directo en los costes operativos y en los presupuestos de marketing de la empresa.
Debido a la significativa importancia de la pérdida de clientes dentro de un negocio, las partes interesadas están invirtiendo más tiempo y esfuerzo en averiguar el razonamiento dentro de sus organizaciones, cómo pueden predecir con precisión el tipo de clientes existentes que pueden dejar de hacer negocios con ellos y qué pueden hacer para minimizar la pérdida de clientes.
La mejor manera de evitar la fuga de clientes es conocer a tus clientes, y la mejor manera de conocer a tu cliente es a través de los datos históricos y de los nuevos clientes.
En este artículo, revisaremos algunos datos de los consumidores y veremos cómo podemos aprovechar los conocimientos de los datos y el modelado predictivo con el fin de mejorar la retención de clientes. En nuestro análisis, utilizaremos Python y una variedad de algoritmos de Machine Learning para la predicción.
Nuestro primer conjunto de datos de clientes es de una compañía de tarjetas de crédito, donde podemos revisar los atributos de los clientes como el género, la edad, la tenencia, el saldo, el número de productos a los que están suscritos, su salario estimado y si dejaron la suscripción o no.
Con este conjunto de datos, desarrollemos múltiples modelos diferentes y evaluémoslos para ver cuál sería el más adecuado para resolver nuestro problema empresarial de abandono de clientes.
Al igual que con el anterior conjunto de datos de clientes de tarjetas de crédito, tenemos que realizar un preprocesamiento y actualizar las variables categóricas a variables numéricas para crear nuestro modelo.
Ahora estamos listos para dividir el conjunto de datos para entrenar/probar y crear nuestros modelos. Empecemos con el bosque aleatorio.
Nuestra puntuación de precisión para el Modelo de Bosque Aleatorio que creamos para predecir la pérdida de clientes de la compañía de telecomunicaciones es de 0.89. Sin embargo, deberíamos analizar esto más a fondo ya que los datos son imparciales.
Podemos revisar métricas de evaluación adicionales, como la matriz de validación cruzada que nos dará la cantidad de verdaderos positivos, falsos positivos, verdaderos y falsos negativos, precisión, recuerdo y puntuación f1. También podemos ver qué podemos hacer para mejorar el modelo mirando qué características contribuyen más a la predicción.
El modelo predice 560 verdaderos negativos, 13 falsos positivos, 54 falsos negativos, 40 verdaderos positivos.
Cuando evaluamos el modelo con el clasificador Random Forest, vemos que:
La puntuación de precisión es 0.729
La puntuación de recuperación es de 0,372
La curva ROC es la siguiente:
La puntuación AUC (el área bajo la curva roc) es de 0.83 y la puntuación f1 es de 0,49.
También descubrimos que, para obtener el mejor rendimiento del modelo, necesitamos establecer el estimador n en 30. (En la actualidad, nuestro modelo utiliza 100)
Podemos seguir observando la importancia de las características para ver qué características tienen el mayor impacto en la predicción.
Mejor en la importancia de la característica, podemos eliminar definitivamente el estado de nuestro modelo.
Creemos otro modelo usando Support Vector Machine.
Cuando creamos el modelo y miramos la precisión, ya vemos que la puntuación de la precisión de la Máquina de Vectores de Apoyo es menor que la de la Clasificación del Bosque Aleatorio.
Cuando creamos el modelo y miramos la precisión, ya vemos que la puntuación de precisión de la máquina de vectores de apoyo es menor que la de la clasificación de Random Forest.
El modelo predice 567 Verdaderos Negativos, 6 Falsos Positivos, 83 Falsos Negativos, 11 Verdaderos Positivos. Aunque el recuento de Falsos Positivos bajó ligeramente, los Verdaderos Positivos son significativamente menores en comparación con RandomForestClassifier.
Tanto la puntuación de precisión (0,647) como la de recuperación (0,11) son mucho menores que las del clasificador aleatorio. El área bajo la curva roc (auc) es de 0,83, que es la misma que la del clasificador Random Forest. La mejor opción para el grado de la máquina de vectores de apoyo es 1. (que actualmente se establece como el valor predeterminado de 3).
Basado en los dos modelos predictivos que creamos el primero que creamos con el clasificador Random Forest sería una mejor opción. También podemos afinar este modelo y mejorarlo actualizando el n_estimador y eliminando la variable de estado del conjunto de características para mejorar la predicción.
Con los conocimientos existentes sobre los consumidores a través de los datos, las empresas pueden predecir las posibles necesidades y problemas de los clientes, definir estrategias y soluciones adecuadas frente a ellos, satisfacer sus expectativas y conservar su negocio. Basándose en el análisis predictivo y el modelado, las empresas pueden centrar su atención con un enfoque específico, segmentando y ofreciendo soluciones personalizadas. Analizar cómo y cuándo se produce la pérdida de clientes en su ciclo de vida con los servicios permitirá a la empresa adoptar medidas más preventivas.