Repositorio de trabajos semanales para el curso MDS7202: Laboratorio de Programación Científica para Ciencia de Datos. Aquí se encuentran los laboratorios desarrollados durante el semestre, cada uno enfocado en diferentes tópicos fundamentales para la ciencia de datos aplicada.
- Marcos Ignacio Huenchumil Illanes
- Nicolás Fuenzalida Sáez
Este repositorio contiene los trabajos prácticos semanales realizados en el marco del curso MDS7202. Cada laboratorio aborda un conjunto de herramientas, técnicas y conceptos clave para la programación científica y la ciencia de datos.
laboratorio1/alaboratorio11/: Carpeta para cada laboratorio semanal, con notebooks, datos y recursos asociados.requirements.txt: Lista de dependencias necesarias para ejecutar los notebooks de ser requerido.
- Laboratorio 1: Introducción a Git y GitHub. Control de versiones, ramas, merge y resolución de conflictos.
- Laboratorio 2: Manipulación de datos con Pandas, visualización básica y análisis exploratorio de datos.
- Laboratorio 3: Manejo de datos reales, limpieza, transformación y análisis descriptivo.
- Laboratorio 4: Técnicas de clustering, reducción de dimensionalidad (PCA), uso de pipelines y visualización avanzada con Plotly.
- Laboratorio 5: Algoritmos de clasificación supervisada (XGBoost, LightGBM), manejo de clases desbalanceadas, métricas de evaluación y selección de características.
- Laboratorio 6: Optimización de modelos: predicción de demanda con XGBoost, uso de pipelines, búsqueda de hiperparámetros óptimos con Optuna, constraints de monotonicidad y técnicas de pruning para acelerar la búsqueda de modelos.
- Laboratorio 7: Interpretabilidad de modelos: clasificación con XGBoost, métodos agnósticos globales (Partial Dependence Plot, Permutation Feature Importance), métodos agnósticos locales (Scoped Rules, SHAP), generación de reglas interpretables y análisis de explicabilidad en modelos de machine learning.
- Laboratorio 8: Despliegue de modelos de machine learning: entrenamiento y registro de modelos con MLFlow, despliegue usando FastAPI y containerización con Docker.
- Laboratorio 9: Automatización y orquestación de pipelines de ciencia de datos usando Apache Airflow y Docker.
- Laboratorio 10: Series de tiempo y sistemas de recomendación: análisis de series de tiempo con Prophet y construcción de sistemas de recomendación con Surprise.
- Laboratorio 11: Resolución de problemas secuenciales con Reinforcement Learning y habilitación de chatbots usando Large Language Models.
- Clona este repositorio:
git clone https://github.com/onemoremoka/MDS7202labs.git - Instala las dependencias:
pip install -r requirements.txt - Abre los notebooks de cada laboratorio en tu entorno favorito (recomendado: Visual Studio Code o Jupyter Notebook).
Algunos laboratorios (particularmente el 8 y 9) contienen aplicaciones desplegadas con Docker Compose para simular entornos productivos completos.