👥 HR Employee Attrition Prediction
👥 Predicción de Rotación de Empleados
Machine learning system that identifies employees at high risk of leaving, enabling proactive retention strategies and reducing turnover costs by up to 50%.
Sistema de machine learning que identifica empleados en alto riesgo de rotación, permitiendo estrategias de retención proactivas y reduciendo costos de rotación hasta en un 50%.
🎯 Business Understanding
Employee turnover is one of the most expensive challenges for organizations. When an employee leaves, the true cost goes far beyond just finding a replacement:
- Replacement costs: 50-200% of annual salary per departure
- Lost productivity: 1-2 years for new hires to reach full productivity
- Team impact: Decreased morale and increased workload on remaining staff
- Knowledge loss: Institutional knowledge walks out the door
La rotación de empleados es uno de los desafíos más costosos para las organizaciones. Cuando un empleado se va, el costo real va mucho más allá de encontrar un reemplazo:
- Costos de reemplazo: 50-200% del salario anual por cada salida
- Pérdida de productividad: 1-2 años para que nuevos empleados alcancen productividad plena
- Impacto en el equipo: Moral reducida y mayor carga de trabajo para el resto
- Pérdida de conocimiento: El conocimiento institucional se va con el empleado
💡 Project goal: Identify employees at high risk of leaving 3-6 months in advance, enabling HR to implement targeted retention strategies before it's too late.
💡 Objetivo del proyecto: Identificar empleados en alto riesgo de irse 3-6 meses antes, permitiendo a RRHH implementar estrategias de retención específicas antes de que sea tarde.
📊 Data Understanding
The dataset is IBM HR Analytics Employee Attrition & Performance, containing 1,470 employee records with 35 features covering demographics, job characteristics, and satisfaction metrics.
Key features include:
- Demographics: Age, Gender, Marital Status, Education
- Job info: Department, Role, Level, Years at Company
- Compensation: Monthly Income, Salary Hike %, Stock Option Level
- Satisfaction: Job Satisfaction, Environment, Work-Life Balance
- Performance: Performance Rating, Training Times, Overtime
El dataset es IBM HR Analytics Employee Attrition & Performance, conteniendo 1,470 registros de empleados con 35 características que cubren demografía, características del trabajo y métricas de satisfacción.
Características clave incluyen:
- Demografía: Edad, Género, Estado Civil, Educación
- Info del trabajo: Departamento, Rol, Nivel, Años en la Empresa
- Compensación: Ingreso Mensual, % Aumento Salarial, Nivel de Acciones
- Satisfacción: Satisfacción Laboral, Ambiente, Balance Vida-Trabajo
- Desempeño: Calificación de Desempeño, Capacitaciones, Horas Extra
⚠️ Class imbalance: Only ~16% of employees show attrition, making this an imbalanced classification problem that requires special handling.
⚠️ Desbalance de clases: Solo ~16% de empleados muestran rotación, haciendo esto un problema de clasificación desbalanceado que requiere manejo especial.
🔧 Data Preparation
Feature Engineering: Created 5 new features to capture hidden patterns:
- PromotionStagnation: Years since last promotion (career growth indicator)
- JobHoppingRate: Companies per years worked (stability metric)
- IncomeGrowthRate: Salary progression over tenure
- WorkLifeBalance Score: Composite satisfaction metric
- CareerProgressionIndex: Role advancement relative to tenure
Handling class imbalance: SMOTE (Synthetic Minority Oversampling) to balance training data.
Preprocessing: Multi-scaler approach for different feature types.
Ingeniería de Características: Se crearon 5 nuevas características para capturar patrones ocultos:
- PromotionStagnation: Años desde última promoción (indicador de crecimiento)
- JobHoppingRate: Empresas por años trabajados (métrica de estabilidad)
- IncomeGrowthRate: Progresión salarial sobre antigüedad
- WorkLifeBalance Score: Métrica compuesta de satisfacción
- CareerProgressionIndex: Avance de rol relativo a antigüedad
Manejo de desbalance: SMOTE (Sobremuestreo Sintético) para balancear datos de entrenamiento.
Preprocesamiento: Enfoque multi-scaler para diferentes tipos de características.
🧠 Modeling
9 algorithms were evaluated:
- Logistic Regression
- Decision Tree
- Random Forest
- Gradient Boosting
- XGBoost
- LightGBM
- CatBoost
- Support Vector Machine
- K-Nearest Neighbors
Best performers: LightGBM and XGBoost consistently showed the best results.
Validation: Stratified K-Fold Cross-Validation to maintain class distribution.
Hyperparameter tuning: GridSearchCV for optimal model configuration.
Se evaluaron 9 algoritmos:
- Regresión Logística
- Árbol de Decisión
- Random Forest
- Gradient Boosting
- XGBoost
- LightGBM
- CatBoost
- Máquina de Vectores de Soporte
- K-Vecinos Más Cercanos
Mejores resultados: LightGBM y XGBoost mostraron consistentemente los mejores resultados.
Validación: Validación Cruzada K-Fold Estratificada para mantener distribución de clases.
Ajuste de hiperparámetros: GridSearchCV para configuración óptima del modelo.
✅ Evaluation
Target metrics achieved:
Métricas objetivo alcanzadas:
Why Recall matters: In attrition prediction, it's better to flag an employee who might not leave (false positive) than to miss someone who will leave (false negative). The cost of a missed departure far exceeds the cost of an extra retention conversation.
Por qué importa Recall: En predicción de rotación, es mejor marcar a un empleado que podría no irse (falso positivo) que perder a alguien que sí se irá (falso negativo). El costo de una salida no detectada supera con creces el costo de una conversación de retención adicional.
🚀 Deployment
The model is deployed on Streamlit Cloud, providing an interactive interface for HR professionals to input employee data and get real-time attrition risk predictions.
El modelo está desplegado en Streamlit Cloud, proporcionando una interfaz interactiva para profesionales de RRHH que pueden ingresar datos de empleados y obtener predicciones de riesgo de rotación en tiempo real.
🖥️ Interactive DemoDemo Interactiva
● LiveDeployment stack:
Stack de deployment:
- Frontend: Streamlit
- Model: LightGBM (serialized with joblib)
- Hosting: Streamlit Cloud (free tier)
- CI/CD: GitHub Actions
Business Impact
Impacto de Negocio
For a company with 1,000 employees and 15% annual turnover, implementing this system could generate estimated savings of $500,000 - $1,500,000 USD annually by reducing turnover by just 20-30% through targeted retention interventions.
Para una empresa con 1,000 empleados y 15% de rotación anual, implementar este sistema podría generar ahorros estimados de $500,000 - $1,500,000 USD anuales al reducir la rotación en solo 20-30% mediante intervenciones de retención específicas.
Key benefits:
Beneficios clave:
- Proactive retention instead of reactive exit interviews
- Data-driven identification of at-risk talent
- Targeted interventions (compensation, growth, work-life balance)
- Reduced recruitment and training costs
- Preserved institutional knowledge and team stability
- Retención proactiva en lugar de entrevistas de salida reactivas
- Identificación basada en datos del talento en riesgo
- Intervenciones específicas (compensación, crecimiento, balance vida-trabajo)
- Reducción de costos de reclutamiento y capacitación
- Preservación del conocimiento institucional y estabilidad del equipo