Este é o meu primeiro projeto de People Analytics desenvolvido com o objetivo de criar um projeto end-to-end para aprendizagem e portfólio. O projeto visa demonstrar habilidades em análise de dados, modelagem preditiva, visualização de dados e storytelling com dados.
O objetivo deste projeto é construir uma solução completa de People Analytics, abrangendo desde a coleta e análise de dados até a modelagem preditiva e a visualização final. Isso incluirá a criação de uma camada semântica para facilitar o entendimento e a utilização dos dados no contexto de People Analytics.
Utilização do DuckDB como banco de dados, e do Apache Superset como plataforma de visualização de dados com suporte a dashboard as code. Posteriormente avaliar a inclusão do Cube.js na stack
Utilizar o Apache Superset como plataforma de visualização de dados com suporte a dashboard as code.
Possiveis indicadores:
- Descrição: Número total de funcionários na organização.
- Fonte de Dados:
EmployeeCount
- Descrição: Percentual de funcionários que deixaram a empresa.
- Fonte de Dados:
Attrition
- Descrição: Média de satisfação dos funcionários em relação ao trabalho, ambiente e relacionamentos.
- Fontes de Dados:
JobSatisfaction
EnvironmentSatisfaction
RelationshipSatisfaction
- Descrição: Média de tempo que os funcionários permanecem na empresa, na função atual e com o gestor atual.
- Fontes de Dados:
YearsAtCompany
YearsInCurrentRole
YearsWithCurrManager
YearsSinceLastPromotion
- Descrição: Distribuição dos funcionários por nível e campo educacional.
- Fontes de Dados:
Education
EducationField
- Descrição: Número médio de treinamentos recebidos pelos funcionários no último ano.
- Fonte de Dados:
TrainingTimesLastYear
- Descrição: Monitoramento da carga de trabalho dos funcionários, incluindo horas padrão e horas extras.
- Fontes de Dados:
StandardHours
OverTime
- Descrição: Distribuição etária dos funcionários.
- Fonte de Dados:
Age
- Descrição: Frequência de promoções entre os funcionários.
- Fonte de Dados:
YearsSinceLastPromotion
- Apache Airflow: Orquestração de dados.
- dbt (Data Build Tool): Transformação de dados e criação de camadas semânticas.
- DuckDB: Motor de banco de dados embutido para análise de dados.
- Apache Superset: Plataforma de visualização de dados com dashboard as code
- Cube.js: Camada de API de dados e analytics.
- synmetrix
- Droughty: Ferramenta para construção de camadas semânticas.
- Scikit-learn: Biblioteca para modelagem e aprendizado de máquina.
- Open-Source Data Viz with Superset and DuckDB
- Cube Core v0.33.43 — DuckDB support, LangChain integration
- Running S3 Object Storage Locally with MinIO
- End-to-End Basic Data Engineering Tutorial (Spark, Dremio, Superset)
- [Data Pipeline – Part. 4] Criação de dashboard com Apache Superset
- The dbt Semantic Layer, Data Orchestration, and the Modern Enterprise Data Stack
- Building Up a Semantic Layer with dbt Metrics, Cube, and Droughty
- Introducing dbt integration with Cube