Informe sobre el Modelo de Churn y el Modelo de Segmentación de clientes

Proyecto: Analítica de clientes para cartera de créditos

Contenido: Informe modelo, informe clustering y apéndice de cruce de retención

Este informe integra en un solo entregable el modelo predictivo de churn, la segmentación por clustering y la lógica de priorización comercial derivada del cruce entre ambos análisis.

Parte I. Informe Modelo

1. Resumen Ejecutivo

2. Objetivo del modelo

El objetivo fue construir un modelo predictivo que permitiera identificar clientes con alta probabilidad de fuga, de forma que la empresa pueda anticiparse con acciones de retención y asignar mejor sus recursos comerciales.

3. Descripción de la base histórica

La base de entrenamiento contiene información de clientes de una empresa de créditos, incluyendo variables de agencia, región, producto, condiciones del crédito y estado del cliente. A partir de la variable ESTADO se construyó la variable objetivo TARGET, donde:

Resumen de la base histórica
Registros históricosVariables originalesClientes renovadosClientes retiradosTasa de fuga
78,829 14 48,815 30,014 0.3807
Distribución de clientes en la base histórica

4. Metodología aplicada

Para desarrollar una solución robusta, se siguió un flujo de trabajo con criterios de ciencia de datos senior:

  1. estandarización y limpieza de variables categóricas,
  2. agrupación de categorías poco frecuentes,
  3. creación de variables derivadas con valor de negocio,
  4. partición holdout para evaluación final,
  5. validación cruzada estratificada,
  6. búsqueda de hiperparámetros con Optuna,
  7. calibración de probabilidades,
  8. entrenamiento final sobre toda la historia y scoring de clientes activos.

El algoritmo seleccionado fue LightGBM, por su alto desempeño en datos tabulares y su capacidad para capturar relaciones complejas sin exigir transformaciones excesivas.

Configuración del modelo final

Los hiperparámetros finales se obtuvieron mediante búsqueda automatizada con Optuna y, posteriormente, se aplicó calibración isotónica para mejorar la confiabilidad de las probabilidades.

Parámetros del modelo final
ParámetroValor
AlgoritmoLightGBM
CalibraciónIsotonic
n_estimators551
learning_rate0.066214
num_leaves83
max_depth9
min_child_samples56
subsample0.670769
colsample_bytree0.642223
reg_alpha2.638875
reg_lambda1.368042
min_split_gain0.154684
scale_pos_weight1.626421

Respecto al umbral de decisión, el modelo original utilizaba un corte de 0.40 para clasificar clientes en fuga. En cambio, el modelo final mejorado seleccionó un umbral óptimo de 0.5853, definido en entrenamiento para maximizar el desempeño operativo. Ese fue el umbral utilizado en la predicción aplicada sobre la base de los 10,000 clientes activos.

5. Resultados del modelo

Para evitar una lectura fragmentada, esta sección resume en un solo bloque la comparación entre el modelo original, el baseline mejorado, el modelo afinado y la versión afinada + calibrada. La lógica de evaluación es la siguiente:

De esta forma, la lectura no se centra solo en si el modelo clasifica bien, sino también en si sus probabilidades son útiles para segmentar y tomar decisiones comerciales.

Comparativa de modelos en holdout
ModeloROC AUCPR AUCBrierLog LossECEPrecision fugaRecall fugaF1 fuga
Modelo original0.97020.95580.06960.21850.03190.80630.94000.8680
Baseline mejorado0.97220.95840.06760.21180.03170.80580.94650.8705
Modelo afinado0.97260.95900.06710.21030.03160.86380.89290.8781
Modelo afinado + calibrado0.97240.95880.06490.20400.00780.89670.84870.8721
Curva de calibración en holdout

Lectura estratégica de los resultados

Además de clasificar bien, el modelo debía entregar probabilidades confiables para segmentar y priorizar clientes. Por eso se revisaron métricas como Brier, Log Loss y ECE.

El modelo afinado fue el que más mejoró la capacidad de clasificación: llevó el ROC AUC de 0.9702 a 0.9726 y el F1 de fuga de 0.8680 a 0.8781.

El modelo afinado + calibrado mantuvo un AUC alto (0.9724), mejoró la precision de fuga de 0.8063 a 0.8967 y fortaleció sobre todo la calidad de las probabilidades: el Brier bajó de 0.0696 a 0.0649, el Log Loss de 0.2185 a 0.2040 y el ECE de 0.0319 a 0.0078.

En síntesis, el tuning mejora la clasificación y la calibración mejora la confiabilidad de las probabilidades.

Decisión sobre el modelo a utilizar
Uso principal Modelo recomendado Motivo
Clasificación / activación de campaña Modelo afinado Mayor F1 de fuga y mejor equilibrio entre precisión y recall.
Segmentación / probabilidad / priorización Modelo afinado + calibrado Probabilidades más confiables y mejor base para optimizar el ROI de campañas de retención.

En este proyecto se eligió finalmente el modelo afinado + calibrado porque ofrece la mejor base para segmentar, priorizar campañas y mejorar el ROI esperado. Ese fue el modelo aplicado sobre la Base de Datos de Predicción de los 10,000 clientes activos.

6. Variables más influyentes

Para la interpretación ejecutiva se priorizan variables originales. Las variables derivadas, como SALDO_RATIO y CAPITAL_PAGADO, fueron útiles para mejorar el desempeño del modelo, pero no se reportan aquí como explicativas principales de negocio.

Bajo ese criterio, las variables con mayor peso explicativo fueron:

Esto sugiere que la fuga está asociada principalmente al saldo pendiente, a la estructura del crédito y a diferencias operativas o comerciales entre agencias y líneas de producto.

Variables originales con mayor peso explicativo
Top 8 variables por importancia relativa
CaracterísticaImportancia% importancia relativa
SALDO_CAPITAL339426.70%
AGENCIA269221.18%
TASA_NOMINAL130810.29%
CAPITAL_CONCEDIDO129910.22%
CREDITOS ANTERIORES11288.87%
REGION8376.58%
SUBPRODUCTO7836.16%
PRODUCTO_GROUP5824.58%

7. Scoring de clientes activos

Resumen del scoring
Clientes activos evaluados Clientes por debajo del umbral técnico Umbral del modelo
10,000 8,107 0.5853
Distribución por segmento de riesgo
SegmentoClientes% de riesgo de fuga
Crítico1,52280.08% – 100.00%
Alto37158.54% – 79.95%
Medio3,08740.05% – 58.46%
Bajo5,0200.00% – 39.96%
Distribución de clientes activos por segmento de riesgo
Distribución de probabilidad de fuga en clientes activos
Ejemplo de clientes por segmento de riesgo
Código clienteCódigo préstamoProbabilidad fugaSegmento riesgo
5717501.0000Crítico
802933801.0000Crítico
3535583600.7995Alto
36021496000.7995Alto
14621528000.5846Medio
25692055400.5846Medio
7973692800.3996Bajo
93583081000.3996Bajo

8. Recomendación final

Con el umbral seleccionado por desempeño, el modelo identifica 1,893 clientes que superan el umbral técnico del modelo. La segmentación operativa del informe se mantiene así:

Desde una perspectiva comercial, el foco principal recomendado no debería estar únicamente en los clientes Críticos, sino en la combinación de segmentos Medio y Alto, donde suele existir una mejor relación entre volumen, riesgo y posibilidad real de retención.

Por tanto, la recomendación operativa es:

Este enfoque busca optimizar el esfuerzo comercial y mejorar el retorno esperado de las campañas.

Cierre metodológico y archivos finales

El modelo desarrollado predice churn, es decir, estima la probabilidad de que un cliente abandone. Sin embargo, no predice persuadabilidad, por lo que no permite afirmar directamente qué clientes cambiarían su comportamiento como resultado de una campaña. En otras palabras, el modelo identifica riesgo, pero no mide de forma causal quién sería realmente recuperable mediante una intervención comercial. En el apéndice de este informe se hacen unas recomendaciones de campaña con base en el riesgo de fuga y la caracterización del cliente.

Los archivos finales disponibles para el ejercicio son:

Parte II. Informe Clustering

1. Resumen ejecutivo

Se aplicó el algoritmo K-means para segmentar la base de 10,000 clientes activos y obtener grupos homogéneos en términos de saldo, monto de crédito, experiencia previa y riesgo de fuga. La idea central del análisis es que la probabilidad de churn no reemplaza la segmentación, sino que la enriquece: ayuda a distinguir qué clientes se parecen entre sí y, al mismo tiempo, cuáles requieren prioridad comercial.

El resultado final recomendado es una solución de 5 clusters, que se describen en detalle más adelante.

2. ¿Por qué se utilizó K-means?

Se eligió K-means por tres razones principales:

  1. Es fácil de explicar. El algoritmo agrupa clientes parecidos entre sí y separa clientes distintos.
  2. Es práctico para negocio. Produce segmentos claros que luego pueden traducirse a campañas, retención, fidelización o monitoreo preventivo.
  3. Funciona bien con este problema. La base tiene variables numéricas relevantes y algunas categóricas codificadas que permitieron un preprocesamiento apropiado.

3. Relación con el modelo de churn

Este ejercicio no parte de una base aislada, sino de la continuidad del proyecto de predicción de fuga. Primero se estimó la probabilidad de churn para los clientes activos; después, esa información se usó como una característica más dentro del clustering.

Esto es importante porque permite caracterizar mejor a los clientes. Ya no se observan solo por saldo o por monto, sino también por su nivel de riesgo. En consecuencia, los clusters no representan únicamente grupos financieros, sino perfiles que combinan comportamiento crediticio y vulnerabilidad de retención.

4. Selección del número de clusters

Se compararon soluciones entre k=3 y k=7 usando métricas internas de calidad. La siguiente tabla resume los resultados.

Métricas de selección del número de clusters
kSilhouetteCalinskiDaviesCluster mín.Cluster máx.
30.697312,744.150.56260.02990.8777
40.462712,545.910.74240.02990.6269
50.550414,096.700.66660.02770.6464
60.564615,324.200.66200.02730.6398
70.548116,873.690.68650.02730.4141

Explicación de la tabla

En términos simples, esta tabla permite ver si una solución separa bien, si los grupos quedan ordenados y si no se forman clusters demasiado extremos o poco útiles.

¿Qué se concluye de la tabla?

Por eso se mantuvo k=5 como solución final. Durante el análisis se revisó una alternativa más compacta, pero k=5 resultó más completa y equilibrada.

Comparación de métricas internas para seleccionar el número de clusters

Explicación de las gráficas

Las tres gráficas muestran exactamente lo mismo que la tabla, pero en forma visual.

La conclusión sencilla es esta: k=4 era una posibilidad razonable, pero k=5 mostró un mejor punto de equilibrio entre simplicidad, separación y utilidad práctica.

5. Segmentación final seleccionada

A continuación se presenta el resumen de la solución final de 5 clusters.

Resumen de la segmentación final (k=5)
Orden Cluster Clientes Fuga mediana Campaña % Capital (med.) Descripción
1 Riesgo crítico accionable 1,777 0.8853 0.9876 5,000 Clientes con alta probabilidad de fuga, alta presión comercial y prioridad inmediata de retención.
2 Premium estable de alto saldo 800 0.1349 0.0025 40,000 Clientes de ticket alto con saldo todavía elevado, pero con probabilidad de fuga baja y perfil financieramente estable.
3 Premium amortizado heterogéneo 277 0.2686 0.2274 50,000 Clientes de ticket alto con fuerte avance de pago; combinan bajo riesgo promedio con una fracción menor que requiere seguimiento selectivo.
4 Recurrentes de ticket medio 682 0.2373 0.0777 18,000 Clientes con experiencia previa, monto medio y baja fuga, adecuados para crecimiento y cross-sell más que para retención intensiva.
5 Base masiva de riesgo medio 6,464 0.3813 0.0031 5,000 Segmento dominante de la cartera: clientes de ticket bajo o medio, con probabilidad de fuga intermedia y necesidad de monitoreo preventivo.

Como validación adicional, se revisó una alternativa de segmentación más compacta. Sin embargo, la solución de 5 clusters conservó una mejor separación práctica entre perfiles de negocio, especialmente al distinguir con más claridad el grupo de fuga más crítica.

6. ¿Qué muestran las gráficas principales?

Proyección en componentes principales

Esta gráfica ubica a los clientes en un plano resumido de dos dimensiones. No muestra todas las variables una por una, sino una versión condensada de la información.

En términos sencillos, lo que se observa es que los clusters no están puestos al azar: hay zonas donde se concentran perfiles parecidos y otras donde aparecen grupos claramente diferentes. La gráfica también muestra que la cartera no forma un solo bloque, sino varios grupos con comportamientos claramente distintos.

Proyección de clientes en componentes principales

Mapa de calor

El mapa de calor compara los clusters entre sí en variables clave. Los colores muestran si un cluster está por encima o por debajo del promedio general.

La principal conclusión del mapa de calor es que los clusters sí representan perfiles distintos. Por ejemplo, hay un grupo que destaca por fuga alta, otro por saldo alto y estabilidad, y otro por ser la base masiva de la cartera.

Mapa de calor comparado de los clusters

Composición de riesgo por cluster

Esta gráfica muestra la mezcla de clientes de riesgo bajo, medio, alto y crítico dentro de cada cluster. Su valor es que conecta directamente el clustering con el trabajo previo de churn.

La lectura sencilla es que algunos clusters están dominados por clientes de bajo riesgo, mientras que otros concentran una mayor proporción de casos críticos o altos. Eso hace que la segmentación no sea solamente descriptiva, sino también útil para priorizar acciones.

Composición de riesgo de churn por cluster

7. Explicación de cada cluster

Cluster 1. Riesgo crítico accionable

Este es el grupo más delicado. Aquí se concentran clientes con probabilidad de fuga muy alta y una gran proporción de casos en segmentos de riesgo crítico o alto. En otras palabras, son clientes que requieren acción inmediata. Si la empresa quisiera priorizar retención, este sería el primer grupo a intervenir.

Cluster 2. Premium estable de alto saldo

Este grupo reúne clientes de valor alto, con saldo todavía importante y bajo riesgo de fuga. No necesitan campañas agresivas de recuperación; más bien conviene cuidarlos con servicio, fidelización y seguimiento de valor.

Cluster 3. Premium amortizado heterogéneo

Aquí aparecen clientes de ticket alto, pero con buena parte del crédito ya pagada. No es un grupo masivo, y por eso conviene leerlo como un segmento selectivo. La empresa puede tratarlos con acciones más puntuales, enfocadas en mantener relación y detectar casos que valga la pena retener.

Cluster 4. Recurrentes de ticket medio

Este cluster representa clientes con experiencia previa y montos intermedios. No son el grupo más riesgoso y tampoco el más premium. Su principal valor es que pueden ser una base natural para crecimiento, profundización comercial o cross-sell.

Cluster 5. Base masiva de riesgo medio

Este es el grupo más grande de la cartera. No destaca por un riesgo extremo, pero su tamaño hace que sea estratégicamente muy importante. Pequeños cambios en este cluster pueden mover mucho el resultado total de la empresa. Por eso se recomienda monitoreo preventivo y acciones escalables de bajo costo.

8. Ejemplos de clientes por cluster

La siguiente tabla muestra 2 clientes de ejemplo por cluster. No se presentan como casos únicos ni definitivos, sino como una muestra concreta para observar cómo se ven los perfiles dentro de cada grupo.

2 clientes de ejemplo por cluster
OrdenClusterCasoClientePréstamo CapitalSaldoCréditos previosProb. fugaRiesgo
1Riesgo crítico accionable1571750600.00306.7211.0000Crítico
1Riesgo crítico accionable280293380998.00352.4211.0000Crítico
2Premium estable de alto saldo1925010093045,000.0038,406.6410.9906Crítico
2Premium estable de alto saldo2864922838040,000.0028,661.7910.9683Crítico
3Premium amortizado heterogéneo190545512045,000.001,672.7911.0000Crítico
3Premium amortizado heterogéneo2905512837045,000.001,696.6311.0000Crítico
4Recurrentes de ticket medio1777612315016,002.00385.1611.0000Crítico
4Recurrentes de ticket medio2785822108017,000.007.7911.0000Crítico
5Base masiva de riesgo medio1578327321010,000.003,127.1410.6638Alto
5Base masiva de riesgo medio256075188010,000.002,914.6610.6550Alto

9. Conclusión final

La segmentación final confirma que K-means fue una elección adecuada para este problema porque produce grupos claros y útiles para negocio. Además, el valor del ejercicio aumenta al conectarlo con el modelo de churn: la probabilidad de fuga y el segmento de riesgo ayudan a interpretar mejor qué representa cada cluster.

En resumen, el análisis sugiere que la cartera activa no debe verse como un solo bloque. Existen grupos con urgencia de retención, grupos de valor alto y estable, grupos selectivos ya amortizados, clientes recurrentes de ticket medio y una base masiva que conviene monitorear preventivamente. Esa lectura vuelve la segmentación útil para la toma de decisiones comerciales.

Apéndice. Cruce de Retención

1. Lógica del cruce

El modelo de churn aporta la probabilidad de fuga y clasifica a los clientes en segmentos Bajo, Medio, Alto y Crítico. El modelo de clustering, por su parte, aporta una lectura del perfil del cliente, su nivel de saldo, avance de pago y naturaleza comercial.

El valor del cruce está en que permite responder una pregunta más útil para negocio: a qué tipo de cliente conviene aplicar una campaña costosa, a cuál una acción personalizada, a cuál una campaña masiva automatizada y a cuál solo monitorear.

Resumen de la base. Muestra el volumen total analizado y cuántos clusters y segmentos de riesgo entran en el cruce.
Clientes analizadosClusters finalesSegmentos de riesgo
10,000 5 4

2. Cruce entre cluster y riesgo de fuga

Clientes por cluster y nivel de riesgo. Indica cuántos clientes reales hay en cada combinación de perfil y riesgo de fuga.
ClusterCríticoAltoMedioBajo
Riesgo crítico accionable1,410343240
Premium estable de alto saldo2035763
Premium amortizado heterogéneo62142172
Recurrentes de ticket medio484163467
Base masiva de riesgo medio0135,831620

Lectura ejecutiva del cruce:

3. Regla operativa propuesta

Regla de decisión comercial. Resume qué acción se propone para cada tipo de cluster y tramo de riesgo.
Cluster Riesgo Acción sugerida Razón
Riesgo crítico accionableAltoIntervención directa y costosaRiesgo alto con mejor opción de recuperación que el segmento crítico extremo.
Premium amortizado heterogéneoCríticoIntervención directa y costosaSon pocos clientes, pero de alto valor; justifican gestión premium.
Premium estable de alto saldoCríticoIntervención directa y costosaAunque el cluster es estable, los pocos casos críticos merecen intervención selectiva por valor.
Premium amortizado heterogéneoMedio / AltoIntervención personalizadaClientes valiosos con riesgo no masivo; conviene un contacto selectivo.
Premium estable de alto saldoMedioIntervención personalizadaSegmento premium con baja fuga media, pero con algunos casos que ameritan seguimiento puntual.
Recurrentes de ticket medioMedio / AltoIntervención personalizadaClientes conocidos, de ticket medio, donde una acción dirigida puede ser eficiente.
Base masiva de riesgo medioMedio / AltoCampaña masiva automatizadaGran volumen con riesgo intermedio; mejor tratarlos con acciones escalables y de bajo costo.
Cualquier clusterCrítico no priorizadoMonitoreo / sin intervención activaEl riesgo extremo no garantiza recuperabilidad y puede destruir ROI si se atiende en masa.
Cualquier clusterBajoMonitoreo / sin intervención activaNo conviene invertir activamente en retención salvo excepciones comerciales.

4. Resumen final por tipo de acción

Interpretación de los buckets de acción:

Resumen por tipo de acción. Consolida cuántos clientes quedan en cada bucket comercial y cuál es su riesgo promedio.
Acción sugeridaClientesParticip. %Fuga prom.Capital (med.)
Campaña masiva automatizada5,84458.44%0.40135,000
Intervención directa y costosa4074.07%0.79605,000
Intervención personalizada2452.45%0.383418,000
Monitoreo / sin intervención activa3,50435.04%0.480116,000
Detalle operativo del cruce. Desglosa cada acción por cluster y segmento de riesgo, junto con el volumen y el perfil económico asociado.
Acción sugeridaClusterRiesgoClientesFuga prom.Capital (med.)
Campaña masiva automatizadaBase masiva de riesgo medioMedio5,8310.40085,000
Campaña masiva automatizadaBase masiva de riesgo medioAlto130.62075,000
Intervención directa y costosaRiesgo crítico accionableAlto3430.76175,000
Intervención directa y costosaPremium amortizado heterogéneoCrítico620.979850,000
Intervención directa y costosaPremium estable de alto saldoCrítico20.979442,500
Intervención personalizadaRecurrentes de ticket medioMedio1630.383518,000
Intervención personalizadaPremium amortizado heterogéneoMedio420.381550,000
Intervención personalizadaPremium estable de alto saldoMedio350.341860,000
Intervención personalizadaRecurrentes de ticket medioAlto40.673418,000
Intervención personalizadaPremium amortizado heterogéneoAlto10.6655

5. Conclusiones operativas

La recomendación final ya no depende solo del score de churn ni solo del cluster, sino del cruce entre ambos.

En otras palabras, este cruce permite pasar de una predicción de fuga a una priorización comercial accionable, distinguiendo qué clientes justifican inversión directa, cuáles conviene tratar con automatización y cuáles deben permanecer en observación.