Census Income: Insights Demográficos e Socioeconômicos

Este projeto utiliza a base de dados Census Income para realizar análises exploratórias de dados (EDA). A base de dados foi extraída do Censo dos Estados Unidos de 1994 e contém informações demográficas e socioeconômicas.

Estrutura do Projeto

A estrutura do projeto é composta pelos seguintes arquivos:

Census_Income.ipynb: Notebook Jupyter com a análise exploratória de dados, pré-processamento, construção e avaliação de modelos.
adult.data: Arquivo com os dados de treinamento.
adult.test: Arquivo com os dados de teste.
old.adult.names: Descrição das colunas presentes no dataset.

Descrição do Dataset

O dataset Census Income contém informações demográficas e econômicas de indivíduos, incluindo atributos como:

Idade (age): Idade do indivíduo.
Tipo de emprego (workclass): Setor de emprego, como setor privado, governo local, etc.
Peso final da amostra (fnlwgt): Uma medida de peso amostral.
Educação (education e education-num): Grau de instrução e número de anos de educação.
Estado civil (marital-status): Estado civil como casado, solteiro, divorciado.
Ocupação (occupation): Tipo de ocupação como técnico, executivo, vendas, entre outros.
Horas trabalhadas (hours-per-week): Número médio de horas trabalhadas por semana.
Rótulo de renda (income): Binário, indicando se a renda é >50K ou <=50K.

Análise Inicial do Dataset

Correções e Limpeza: A base de teste apresentava um erro na coluna class (target), onde as categorias eram exibidas como >50. em vez de >50 e <=50. em vez de <=50. Além disso, algumas variáveis continham "?" no lugar de valores categóricos, indicando dados ausentes.
Pontos de Atenção:
- Identificação e remoção de linhas duplicadas.
- Identificação de outliers para cada variável.
- Verificação do percentual de valores nulos em cada variável.
- Contagem de valores distintos por variável para uma primeira análise exploratória.
- Estatísticas descritivas das variáveis numéricas para identificar possíveis inconsistências.

Análises Exploratórias

Nesta etapa, técnicas de estatística como métricas descritivas (média, moda, mediana, Q1, Q3), gráficos (boxplot e histograma) e testes de hipóteses foram massivamente exploradas para trazer sustentação às afirmações acerca dos dados.

Idade e Renda: A maioria das pessoas com renda <=50K está concentrada nas faixas etárias mais jovens (20-40 anos). Indivíduos com renda >50K têm idade média significativamente maior.

Disparidade de Gênero: A proporção de homens que ganham >50K (30.39%) é significativamente maior do que a de mulheres (10.94%), indicando uma disparidade de gênero em relação a rendas elevadas.

Relação entre Raça e Renda: Um teste Chi-Quadrado revelou uma associação significativa entre raça e renda (p-valor: 0.0000), com asiáticos e pessoas das ilhas do Pacífico apresentando o maior percentual de renda >50K, seguidos por brancos. Negros e indígenas americanos têm as menores proporções.

Estado Civil e Renda: Pessoas casadas compõem a maior proporção de indivíduos na faixa de renda >50K.

Análises de boxplot podem passar uma falsa impressão de que as distribuições de capital são praticamente idênticas entre si para os diferentes estados civis:

Mas para identificar se há uma diferença estatísticamente significante entre os ganhos de capital de cada um dos estados civil, podemos aplicar um teste de hipótese através do teste de Kruskal-Wallis:

Hipóteses para o Teste de Kruskal-Wallis:

Hipótese Nula (H0): As distribuições de ganhos de capital são iguais para todos os estados civis
Hipótese Alternativa (H1): Pelo menos uma das distribuições de ganhos de capital é diferente entre os estados civis

H-statistic: 845.48, p-value: 0.00000
Rejeitamos a hipótese nula. Há uma diferença significativa nas distribuições de ganhos de capital entre os estados civis

Balanceamento de Dados

Distribuição Desbalanceada: Cerca de 76.06% dos indivíduos possuem renda <=50K e 23.94% possuem renda >50K.

Técnicas de Balanceamento:
- SMOTE (Synthetic Minority Over-sampling Technique): Utilizado para balancear a classe minoritária por interpolação, reduzindo o risco de overfitting em comparação com o oversampling tradicional.
- Class Weight: Alternativa ao SMOTE, onde o peso das classes é ajustado de forma inversamente proporcional à frequência, influenciando a função de perda e penalizando erros na classe minoritária.

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
Apresentacao		Apresentacao
Notebook		Notebook
README.md		README.md
adult.data		adult.data
adult.test		adult.test
old.adult.names		old.adult.names

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Census Income: Insights Demográficos e Socioeconômicos

Estrutura do Projeto

Descrição do Dataset

Análise Inicial do Dataset

Análises Exploratórias

Hipóteses para o Teste de Kruskal-Wallis:

Balanceamento de Dados

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Census Income: Insights Demográficos e Socioeconômicos

Estrutura do Projeto

Descrição do Dataset

Análise Inicial do Dataset

Análises Exploratórias

Hipóteses para o Teste de Kruskal-Wallis:

Balanceamento de Dados

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages