Skip to content

migonetwo/MDS7202labs

Repository files navigation

MDS7202labs

Repositorio de trabajos semanales para el curso MDS7202: Laboratorio de Programación Científica para Ciencia de Datos. Aquí se encuentran los laboratorios desarrollados durante el semestre, cada uno enfocado en diferentes tópicos fundamentales para la ciencia de datos aplicada.

Integrantes

  • Marcos Ignacio Huenchumil Illanes
  • Nicolás Fuenzalida Sáez

Descripción general

Este repositorio contiene los trabajos prácticos semanales realizados en el marco del curso MDS7202. Cada laboratorio aborda un conjunto de herramientas, técnicas y conceptos clave para la programación científica y la ciencia de datos.

Estructura del repositorio

  • laboratorio1/ a laboratorio11/: Carpeta para cada laboratorio semanal, con notebooks, datos y recursos asociados.
  • requirements.txt: Lista de dependencias necesarias para ejecutar los notebooks de ser requerido.

Temáticas abordadas por laboratorio

  • Laboratorio 1: Introducción a Git y GitHub. Control de versiones, ramas, merge y resolución de conflictos.
  • Laboratorio 2: Manipulación de datos con Pandas, visualización básica y análisis exploratorio de datos.
  • Laboratorio 3: Manejo de datos reales, limpieza, transformación y análisis descriptivo.
  • Laboratorio 4: Técnicas de clustering, reducción de dimensionalidad (PCA), uso de pipelines y visualización avanzada con Plotly.
  • Laboratorio 5: Algoritmos de clasificación supervisada (XGBoost, LightGBM), manejo de clases desbalanceadas, métricas de evaluación y selección de características.
  • Laboratorio 6: Optimización de modelos: predicción de demanda con XGBoost, uso de pipelines, búsqueda de hiperparámetros óptimos con Optuna, constraints de monotonicidad y técnicas de pruning para acelerar la búsqueda de modelos.
  • Laboratorio 7: Interpretabilidad de modelos: clasificación con XGBoost, métodos agnósticos globales (Partial Dependence Plot, Permutation Feature Importance), métodos agnósticos locales (Scoped Rules, SHAP), generación de reglas interpretables y análisis de explicabilidad en modelos de machine learning.
  • Laboratorio 8: Despliegue de modelos de machine learning: entrenamiento y registro de modelos con MLFlow, despliegue usando FastAPI y containerización con Docker.
  • Laboratorio 9: Automatización y orquestación de pipelines de ciencia de datos usando Apache Airflow y Docker.
  • Laboratorio 10: Series de tiempo y sistemas de recomendación: análisis de series de tiempo con Prophet y construcción de sistemas de recomendación con Surprise.
  • Laboratorio 11: Resolución de problemas secuenciales con Reinforcement Learning y habilitación de chatbots usando Large Language Models.

Instrucciones de uso

  1. Clona este repositorio:
    git clone https://github.com/onemoremoka/MDS7202labs.git
    
  2. Instala las dependencias:
    pip install -r requirements.txt
    
  3. Abre los notebooks de cada laboratorio en tu entorno favorito (recomendado: Visual Studio Code o Jupyter Notebook).

Algunos laboratorios (particularmente el 8 y 9) contienen aplicaciones desplegadas con Docker Compose para simular entornos productivos completos.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors