Proyecto: Analítica de clientes para cartera de créditos
Contenido: Informe modelo, informe clustering y apéndice de cruce de retención
Este informe integra en un solo entregable el modelo predictivo de churn, la segmentación por clustering y la lógica de priorización comercial derivada del cruce entre ambos análisis.
El objetivo fue construir un modelo predictivo que permitiera identificar clientes con alta probabilidad de fuga, de forma que la empresa pueda anticiparse con acciones de retención y asignar mejor sus recursos comerciales.
La base de entrenamiento contiene información de clientes de una empresa de créditos, incluyendo variables de agencia, región, producto, condiciones del crédito y estado del cliente. A partir de la variable ESTADO se construyó la variable objetivo TARGET, donde:
0 = Cliente renovado1 = Cliente retirado| Registros históricos | Variables originales | Clientes renovados | Clientes retirados | Tasa de fuga |
|---|---|---|---|---|
| 78,829 | 14 | 48,815 | 30,014 | 0.3807 |
Para desarrollar una solución robusta, se siguió un flujo de trabajo con criterios de ciencia de datos senior:
El algoritmo seleccionado fue LightGBM, por su alto desempeño en datos tabulares y su capacidad para capturar relaciones complejas sin exigir transformaciones excesivas.
Los hiperparámetros finales se obtuvieron mediante búsqueda automatizada con Optuna y, posteriormente, se aplicó calibración isotónica para mejorar la confiabilidad de las probabilidades.
| Parámetro | Valor |
|---|---|
| Algoritmo | LightGBM |
| Calibración | Isotonic |
| n_estimators | 551 |
| learning_rate | 0.066214 |
| num_leaves | 83 |
| max_depth | 9 |
| min_child_samples | 56 |
| subsample | 0.670769 |
| colsample_bytree | 0.642223 |
| reg_alpha | 2.638875 |
| reg_lambda | 1.368042 |
| min_split_gain | 0.154684 |
| scale_pos_weight | 1.626421 |
Respecto al umbral de decisión, el modelo original utilizaba un corte de 0.40 para clasificar clientes en fuga. En cambio, el modelo final mejorado seleccionó un umbral óptimo de 0.5853, definido en entrenamiento para maximizar el desempeño operativo. Ese fue el umbral utilizado en la predicción aplicada sobre la base de los 10,000 clientes activos.
Para evitar una lectura fragmentada, esta sección resume en un solo bloque la comparación entre el modelo original, el baseline mejorado, el modelo afinado y la versión afinada + calibrada. La lógica de evaluación es la siguiente:
De esta forma, la lectura no se centra solo en si el modelo clasifica bien, sino también en si sus probabilidades son útiles para segmentar y tomar decisiones comerciales.
| Modelo | ROC AUC | PR AUC | Brier | Log Loss | ECE | Precision fuga | Recall fuga | F1 fuga |
|---|---|---|---|---|---|---|---|---|
| Modelo original | 0.9702 | 0.9558 | 0.0696 | 0.2185 | 0.0319 | 0.8063 | 0.9400 | 0.8680 |
| Baseline mejorado | 0.9722 | 0.9584 | 0.0676 | 0.2118 | 0.0317 | 0.8058 | 0.9465 | 0.8705 |
| Modelo afinado | 0.9726 | 0.9590 | 0.0671 | 0.2103 | 0.0316 | 0.8638 | 0.8929 | 0.8781 |
| Modelo afinado + calibrado | 0.9724 | 0.9588 | 0.0649 | 0.2040 | 0.0078 | 0.8967 | 0.8487 | 0.8721 |
Además de clasificar bien, el modelo debía entregar probabilidades confiables para segmentar y priorizar clientes. Por eso se revisaron métricas como Brier, Log Loss y ECE.
El modelo afinado fue el que más mejoró la capacidad de clasificación: llevó el ROC AUC de 0.9702 a 0.9726 y el F1 de fuga de 0.8680 a 0.8781.
El modelo afinado + calibrado mantuvo un AUC alto (0.9724), mejoró la precision de fuga de 0.8063 a 0.8967 y fortaleció sobre todo la calidad de las probabilidades: el Brier bajó de 0.0696 a 0.0649, el Log Loss de 0.2185 a 0.2040 y el ECE de 0.0319 a 0.0078.
En síntesis, el tuning mejora la clasificación y la calibración mejora la confiabilidad de las probabilidades.
| Uso principal | Modelo recomendado | Motivo |
|---|---|---|
| Clasificación / activación de campaña | Modelo afinado | Mayor F1 de fuga y mejor equilibrio entre precisión y recall. |
| Segmentación / probabilidad / priorización | Modelo afinado + calibrado | Probabilidades más confiables y mejor base para optimizar el ROI de campañas de retención. |
En este proyecto se eligió finalmente el modelo afinado + calibrado porque ofrece la mejor base para segmentar, priorizar campañas y mejorar el ROI esperado. Ese fue el modelo aplicado sobre la Base de Datos de Predicción de los 10,000 clientes activos.
Para la interpretación ejecutiva se priorizan variables originales. Las variables derivadas, como SALDO_RATIO y CAPITAL_PAGADO, fueron útiles para mejorar el desempeño del modelo, pero no se reportan aquí como explicativas principales de negocio.
Bajo ese criterio, las variables con mayor peso explicativo fueron:
SALDO_CAPITALAGENCIATASA_NOMINALCAPITAL_CONCEDIDOCREDITOS ANTERIORESREGIONSUBPRODUCTOPRODUCTO_GROUP (agrupación analítica de PRODUCTO)Esto sugiere que la fuga está asociada principalmente al saldo pendiente, a la estructura del crédito y a diferencias operativas o comerciales entre agencias y líneas de producto.
| Característica | Importancia | % importancia relativa |
|---|---|---|
| SALDO_CAPITAL | 3394 | 26.70% |
| AGENCIA | 2692 | 21.18% |
| TASA_NOMINAL | 1308 | 10.29% |
| CAPITAL_CONCEDIDO | 1299 | 10.22% |
| CREDITOS ANTERIORES | 1128 | 8.87% |
| REGION | 837 | 6.58% |
| SUBPRODUCTO | 783 | 6.16% |
| PRODUCTO_GROUP | 582 | 4.58% |
| Clientes activos evaluados | Clientes por debajo del umbral técnico | Umbral del modelo |
|---|---|---|
| 10,000 | 8,107 | 0.5853 |
| Segmento | Clientes | % de riesgo de fuga |
|---|---|---|
| Crítico | 1,522 | 80.08% – 100.00% |
| Alto | 371 | 58.54% – 79.95% |
| Medio | 3,087 | 40.05% – 58.46% |
| Bajo | 5,020 | 0.00% – 39.96% |
| Código cliente | Código préstamo | Probabilidad fuga | Segmento riesgo |
|---|---|---|---|
| 57 | 1750 | 1.0000 | Crítico |
| 80 | 293380 | 1.0000 | Crítico |
| 3535 | 58360 | 0.7995 | Alto |
| 3602 | 149600 | 0.7995 | Alto |
| 1462 | 152800 | 0.5846 | Medio |
| 2569 | 205540 | 0.5846 | Medio |
| 7973 | 69280 | 0.3996 | Bajo |
| 9358 | 308100 | 0.3996 | Bajo |
Con el umbral seleccionado por desempeño, el modelo identifica 1,893 clientes que superan el umbral técnico del modelo. La segmentación operativa del informe se mantiene así:
Bajo: 0.00% a 39.99%Medio: 40.00% a 58.52%Alto: 58.53% a 79.99%Crítico: 80.00% o másDesde una perspectiva comercial, el foco principal recomendado no debería estar únicamente en los clientes Críticos, sino en la combinación de segmentos Medio y Alto, donde suele existir una mejor relación entre volumen, riesgo y posibilidad real de retención.
Por tanto, la recomendación operativa es:
Medio: campañas masivas de bajo costo y alto alcance.Alto: campañas específicas y más personalizadas.Crítico: intervención selectiva, priorizando clientes de mayor valor.Bajo: monitoreo, sin intervención activa.Este enfoque busca optimizar el esfuerzo comercial y mejorar el retorno esperado de las campañas.
El modelo desarrollado predice churn, es decir, estima la probabilidad de que un cliente abandone. Sin embargo, no predice persuadabilidad, por lo que no permite afirmar directamente qué clientes cambiarían su comportamiento como resultado de una campaña. En otras palabras, el modelo identifica riesgo, pero no mide de forma causal quién sería realmente recuperable mediante una intervención comercial. En el apéndice de este informe se hacen unas recomendaciones de campaña con base en el riesgo de fuga y la caracterización del cliente.
Los archivos finales disponibles para el ejercicio son:
predicciones_clientes_activos.xlsxpredicciones_clientes_activos.csvSe aplicó el algoritmo K-means para segmentar la base de 10,000 clientes activos y obtener grupos homogéneos en términos de saldo, monto de crédito, experiencia previa y riesgo de fuga. La idea central del análisis es que la probabilidad de churn no reemplaza la segmentación, sino que la enriquece: ayuda a distinguir qué clientes se parecen entre sí y, al mismo tiempo, cuáles requieren prioridad comercial.
El resultado final recomendado es una solución de 5 clusters, que se describen en detalle más adelante.
Se eligió K-means por tres razones principales:
Este ejercicio no parte de una base aislada, sino de la continuidad del proyecto de predicción de fuga. Primero se estimó la probabilidad de churn para los clientes activos; después, esa información se usó como una característica más dentro del clustering.
Esto es importante porque permite caracterizar mejor a los clientes. Ya no se observan solo por saldo o por monto, sino también por su nivel de riesgo. En consecuencia, los clusters no representan únicamente grupos financieros, sino perfiles que combinan comportamiento crediticio y vulnerabilidad de retención.
Se compararon soluciones entre k=3 y k=7 usando métricas internas de calidad. La siguiente tabla resume los resultados.
| k | Silhouette | Calinski | Davies | Cluster mín. | Cluster máx. |
|---|---|---|---|---|---|
| 3 | 0.6973 | 12,744.15 | 0.5626 | 0.0299 | 0.8777 |
| 4 | 0.4627 | 12,545.91 | 0.7424 | 0.0299 | 0.6269 |
| 5 | 0.5504 | 14,096.70 | 0.6666 | 0.0277 | 0.6464 |
| 6 | 0.5646 | 15,324.20 | 0.6620 | 0.0273 | 0.6398 |
| 7 | 0.5481 | 16,873.69 | 0.6865 | 0.0273 | 0.4141 |
En términos simples, esta tabla permite ver si una solución separa bien, si los grupos quedan ordenados y si no se forman clusters demasiado extremos o poco útiles.
k=3, la silueta es alta, pero aparece un cluster demasiado grande, de casi 88% de la cartera. Eso simplifica demasiado la segmentación.k=5, mejora el equilibrio: la separación técnica sube, el tamaño de los grupos sigue siendo manejable y la lectura de negocio gana claridad.k=6 y k=7, algunas métricas mejoran parcialmente, pero ya se entra en una segmentación más fragmentada, con menor ganancia práctica para un informe ejecutivo.Por eso se mantuvo k=5 como solución final. Durante el análisis se revisó una alternativa más compacta, pero k=5 resultó más completa y equilibrada.
Las tres gráficas muestran exactamente lo mismo que la tabla, pero en forma visual.
k=3 luce muy alto, pero eso ocurre porque agrupa demasiado; no necesariamente porque sea la mejor solución de negocio.k=5 los grupos muestran una estructura más ordenada y mejor separada.k=5 queda en una zona favorable porque logra una buena separación sin caer en una fragmentación innecesaria.La conclusión sencilla es esta: k=4 era una posibilidad razonable, pero k=5 mostró un mejor punto de equilibrio entre simplicidad, separación y utilidad práctica.
A continuación se presenta el resumen de la solución final de 5 clusters.
| Orden | Cluster | Clientes | Fuga mediana | Campaña % | Capital (med.) | Descripción |
|---|---|---|---|---|---|---|
| 1 | Riesgo crítico accionable | 1,777 | 0.8853 | 0.9876 | 5,000 | Clientes con alta probabilidad de fuga, alta presión comercial y prioridad inmediata de retención. |
| 2 | Premium estable de alto saldo | 800 | 0.1349 | 0.0025 | 40,000 | Clientes de ticket alto con saldo todavía elevado, pero con probabilidad de fuga baja y perfil financieramente estable. |
| 3 | Premium amortizado heterogéneo | 277 | 0.2686 | 0.2274 | 50,000 | Clientes de ticket alto con fuerte avance de pago; combinan bajo riesgo promedio con una fracción menor que requiere seguimiento selectivo. |
| 4 | Recurrentes de ticket medio | 682 | 0.2373 | 0.0777 | 18,000 | Clientes con experiencia previa, monto medio y baja fuga, adecuados para crecimiento y cross-sell más que para retención intensiva. |
| 5 | Base masiva de riesgo medio | 6,464 | 0.3813 | 0.0031 | 5,000 | Segmento dominante de la cartera: clientes de ticket bajo o medio, con probabilidad de fuga intermedia y necesidad de monitoreo preventivo. |
Como validación adicional, se revisó una alternativa de segmentación más compacta. Sin embargo, la solución de 5 clusters conservó una mejor separación práctica entre perfiles de negocio, especialmente al distinguir con más claridad el grupo de fuga más crítica.
Esta gráfica ubica a los clientes en un plano resumido de dos dimensiones. No muestra todas las variables una por una, sino una versión condensada de la información.
En términos sencillos, lo que se observa es que los clusters no están puestos al azar: hay zonas donde se concentran perfiles parecidos y otras donde aparecen grupos claramente diferentes. La gráfica también muestra que la cartera no forma un solo bloque, sino varios grupos con comportamientos claramente distintos.
El mapa de calor compara los clusters entre sí en variables clave. Los colores muestran si un cluster está por encima o por debajo del promedio general.
La principal conclusión del mapa de calor es que los clusters sí representan perfiles distintos. Por ejemplo, hay un grupo que destaca por fuga alta, otro por saldo alto y estabilidad, y otro por ser la base masiva de la cartera.
Esta gráfica muestra la mezcla de clientes de riesgo bajo, medio, alto y crítico dentro de cada cluster. Su valor es que conecta directamente el clustering con el trabajo previo de churn.
La lectura sencilla es que algunos clusters están dominados por clientes de bajo riesgo, mientras que otros concentran una mayor proporción de casos críticos o altos. Eso hace que la segmentación no sea solamente descriptiva, sino también útil para priorizar acciones.
Este es el grupo más delicado. Aquí se concentran clientes con probabilidad de fuga muy alta y una gran proporción de casos en segmentos de riesgo crítico o alto. En otras palabras, son clientes que requieren acción inmediata. Si la empresa quisiera priorizar retención, este sería el primer grupo a intervenir.
Este grupo reúne clientes de valor alto, con saldo todavía importante y bajo riesgo de fuga. No necesitan campañas agresivas de recuperación; más bien conviene cuidarlos con servicio, fidelización y seguimiento de valor.
Aquí aparecen clientes de ticket alto, pero con buena parte del crédito ya pagada. No es un grupo masivo, y por eso conviene leerlo como un segmento selectivo. La empresa puede tratarlos con acciones más puntuales, enfocadas en mantener relación y detectar casos que valga la pena retener.
Este cluster representa clientes con experiencia previa y montos intermedios. No son el grupo más riesgoso y tampoco el más premium. Su principal valor es que pueden ser una base natural para crecimiento, profundización comercial o cross-sell.
Este es el grupo más grande de la cartera. No destaca por un riesgo extremo, pero su tamaño hace que sea estratégicamente muy importante. Pequeños cambios en este cluster pueden mover mucho el resultado total de la empresa. Por eso se recomienda monitoreo preventivo y acciones escalables de bajo costo.
La siguiente tabla muestra 2 clientes de ejemplo por cluster. No se presentan como casos únicos ni definitivos, sino como una muestra concreta para observar cómo se ven los perfiles dentro de cada grupo.
| Orden | Cluster | Caso | Cliente | Préstamo | Capital | Saldo | Créditos previos | Prob. fuga | Riesgo |
|---|---|---|---|---|---|---|---|---|---|
| 1 | Riesgo crítico accionable | 1 | 57 | 1750 | 600.00 | 306.72 | 1 | 1.0000 | Crítico |
| 1 | Riesgo crítico accionable | 2 | 80 | 293380 | 998.00 | 352.42 | 1 | 1.0000 | Crítico |
| 2 | Premium estable de alto saldo | 1 | 9250 | 100930 | 45,000.00 | 38,406.64 | 1 | 0.9906 | Crítico |
| 2 | Premium estable de alto saldo | 2 | 8649 | 228380 | 40,000.00 | 28,661.79 | 1 | 0.9683 | Crítico |
| 3 | Premium amortizado heterogéneo | 1 | 9054 | 55120 | 45,000.00 | 1,672.79 | 1 | 1.0000 | Crítico |
| 3 | Premium amortizado heterogéneo | 2 | 9055 | 128370 | 45,000.00 | 1,696.63 | 1 | 1.0000 | Crítico |
| 4 | Recurrentes de ticket medio | 1 | 7776 | 123150 | 16,002.00 | 385.16 | 1 | 1.0000 | Crítico |
| 4 | Recurrentes de ticket medio | 2 | 7858 | 221080 | 17,000.00 | 7.79 | 1 | 1.0000 | Crítico |
| 5 | Base masiva de riesgo medio | 1 | 5783 | 273210 | 10,000.00 | 3,127.14 | 1 | 0.6638 | Alto |
| 5 | Base masiva de riesgo medio | 2 | 5607 | 51880 | 10,000.00 | 2,914.66 | 1 | 0.6550 | Alto |
La segmentación final confirma que K-means fue una elección adecuada para este problema porque produce grupos claros y útiles para negocio. Además, el valor del ejercicio aumenta al conectarlo con el modelo de churn: la probabilidad de fuga y el segmento de riesgo ayudan a interpretar mejor qué representa cada cluster.
En resumen, el análisis sugiere que la cartera activa no debe verse como un solo bloque. Existen grupos con urgencia de retención, grupos de valor alto y estable, grupos selectivos ya amortizados, clientes recurrentes de ticket medio y una base masiva que conviene monitorear preventivamente. Esa lectura vuelve la segmentación útil para la toma de decisiones comerciales.
El modelo de churn aporta la probabilidad de fuga y clasifica a los clientes en segmentos Bajo, Medio, Alto y Crítico. El modelo de clustering, por su parte, aporta una lectura del perfil del cliente, su nivel de saldo, avance de pago y naturaleza comercial.
El valor del cruce está en que permite responder una pregunta más útil para negocio: a qué tipo de cliente conviene aplicar una campaña costosa, a cuál una acción personalizada, a cuál una campaña masiva automatizada y a cuál solo monitorear.
| Clientes analizados | Clusters finales | Segmentos de riesgo |
|---|---|---|
| 10,000 | 5 | 4 |
| Cluster | Crítico | Alto | Medio | Bajo |
|---|---|---|---|---|
| Riesgo crítico accionable | 1,410 | 343 | 24 | 0 |
| Premium estable de alto saldo | 2 | 0 | 35 | 763 |
| Premium amortizado heterogéneo | 62 | 1 | 42 | 172 |
| Recurrentes de ticket medio | 48 | 4 | 163 | 467 |
| Base masiva de riesgo medio | 0 | 13 | 5,831 | 620 |
Lectura ejecutiva del cruce:
Crítico y Alto, pero eso no significa que todos deban recibir una intervención costosa.Medio, lo que lo convierte en el mejor candidato para campañas automatizadas y de bajo costo.Críticos más extremos no necesariamente son los mejores candidatos para una campaña costosa; en una primera implementación ejecutiva, resulta más razonable dejarlos fuera de las campañas activas salvo casos muy puntuales.| Cluster | Riesgo | Acción sugerida | Razón |
|---|---|---|---|
| Riesgo crítico accionable | Alto | Intervención directa y costosa | Riesgo alto con mejor opción de recuperación que el segmento crítico extremo. |
| Premium amortizado heterogéneo | Crítico | Intervención directa y costosa | Son pocos clientes, pero de alto valor; justifican gestión premium. |
| Premium estable de alto saldo | Crítico | Intervención directa y costosa | Aunque el cluster es estable, los pocos casos críticos merecen intervención selectiva por valor. |
| Premium amortizado heterogéneo | Medio / Alto | Intervención personalizada | Clientes valiosos con riesgo no masivo; conviene un contacto selectivo. |
| Premium estable de alto saldo | Medio | Intervención personalizada | Segmento premium con baja fuga media, pero con algunos casos que ameritan seguimiento puntual. |
| Recurrentes de ticket medio | Medio / Alto | Intervención personalizada | Clientes conocidos, de ticket medio, donde una acción dirigida puede ser eficiente. |
| Base masiva de riesgo medio | Medio / Alto | Campaña masiva automatizada | Gran volumen con riesgo intermedio; mejor tratarlos con acciones escalables y de bajo costo. |
| Cualquier cluster | Crítico no priorizado | Monitoreo / sin intervención activa | El riesgo extremo no garantiza recuperabilidad y puede destruir ROI si se atiende en masa. |
| Cualquier cluster | Bajo | Monitoreo / sin intervención activa | No conviene invertir activamente en retención salvo excepciones comerciales. |
Interpretación de los buckets de acción:
| Acción sugerida | Clientes | Particip. % | Fuga prom. | Capital (med.) |
|---|---|---|---|---|
| Campaña masiva automatizada | 5,844 | 58.44% | 0.4013 | 5,000 |
| Intervención directa y costosa | 407 | 4.07% | 0.7960 | 5,000 |
| Intervención personalizada | 245 | 2.45% | 0.3834 | 18,000 |
| Monitoreo / sin intervención activa | 3,504 | 35.04% | 0.4801 | 16,000 |
| Acción sugerida | Cluster | Riesgo | Clientes | Fuga prom. | Capital (med.) |
|---|---|---|---|---|---|
| Campaña masiva automatizada | Base masiva de riesgo medio | Medio | 5,831 | 0.4008 | 5,000 |
| Campaña masiva automatizada | Base masiva de riesgo medio | Alto | 13 | 0.6207 | 5,000 |
| Intervención directa y costosa | Riesgo crítico accionable | Alto | 343 | 0.7617 | 5,000 |
| Intervención directa y costosa | Premium amortizado heterogéneo | Crítico | 62 | 0.9798 | 50,000 |
| Intervención directa y costosa | Premium estable de alto saldo | Crítico | 2 | 0.9794 | 42,500 |
| Intervención personalizada | Recurrentes de ticket medio | Medio | 163 | 0.3835 | 18,000 |
| Intervención personalizada | Premium amortizado heterogéneo | Medio | 42 | 0.3815 | 50,000 |
| Intervención personalizada | Premium estable de alto saldo | Medio | 35 | 0.3418 | 60,000 |
| Intervención personalizada | Recurrentes de ticket medio | Alto | 4 | 0.6734 | 18,000 |
| Intervención personalizada | Premium amortizado heterogéneo | Alto | 1 | 0.6655 | — |
La recomendación final ya no depende solo del score de churn ni solo del cluster, sino del cruce entre ambos.
Alto del cluster Riesgo crítico accionable y en los pocos casos Críticos de clusters premium, donde el valor comercial justifica una gestión intensiva.Premium o Recurrentes con riesgo Medio o Alto, donde el volumen es manejable y el valor potencial justifica un tratamiento selectivo.Base masiva de riesgo medio, especialmente en clientes Medio, porque allí está el mayor volumen y la mejor oportunidad para acciones escalables.Bajo y también a buena parte de los Críticos extremos cuando no exista una señal adicional de valor o recuperabilidad.En otras palabras, este cruce permite pasar de una predicción de fuga a una priorización comercial accionable, distinguiendo qué clientes justifican inversión directa, cuáles conviene tratar con automatización y cuáles deben permanecer en observación.