forked from lucasmation/microdadosBrasil
-
Notifications
You must be signed in to change notification settings - Fork 0
/
README_PT.Rmd
129 lines (89 loc) · 6.13 KB
/
README_PT.Rmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
---
output: github_document
---
<!-- README.md is generated from README.Rmd. Please edit that file -->
```{r, echo = FALSE}
knitr::opts_chunk$set(
collapse = TRUE,
comment = "#>",
fig.path = "README-"
)
```
# microdadosBrasil
## Trabalho em andamento
### NOVIDADES:
* Censo 2010
* RAIS
* CAGED
* PME
- Não usa R? Veja: [using the package from Stata and Python](https://github.com/lucasmation/microdadosBrasil/blob/master/vignettes/Running_from_other_software.Rmd)
### EM BREVE:
* Suporte para leitura de dados fora da memória RAM
* Harmonização do nome de variáveis ao longo dos anos
## DESCRIÇÃO
Esse pacote disponibiliza funções para importar as bases mais comuns de microdados brasileiros. Importar estes microdados pode ser tedioso. A maior parte dos dados é disponibilizada em arquivos do tipo txt colunado (fixed width files, fwf) e, geralmente, contém scripts de importação somente para SAS e SPSS. Os dados algumas vezes vem subdivididos em muitos arquivos, por UF ou Região. Além disso é comum que nomes de arquivos e de variáveis de certa base de dados variem ao longo do tempo. `microdadoBrasil` cuida desses detalhes pra você. Internamente o pacote está rodando `readr` para arquivos fwf e `data.table` aquivos separados por delimitadores (csv). Assim, a importação é rápida.
Atualmente, o pacote inclui funções de importação para as seguintes bases de dados:
```{r echo=FALSE}
d <- data.frame(
Fonte=c('IBGE','IBGE','IBGE','IBGE','INEP','INEP','MTE','MTE'),
Dataset=c('PNAD','Censo Demográfico','PME','POF','Censo Escolar','Censo da Educ. Superior','CAGED','RAIS'),
Função=c('read_PNAD','read_CENSO','read_PME','read_POF','read_CensoEscolar','read_CensoEducacaoSuperior','read_CAGED','read_RAIS'),
Período=c('2001 to 2014','2000','2002.01 to 2015.12','2008','1995 to 2014','1995 to 2014','2009.01 to 2016.05','1998 to 2014'),
Subdataset=c('domicilios, pessoas','domicilios, pessoas','vinculos','several, ver detalhes','escolas, ..., ver detalhes','ver detalhes','vinculos','estabelecimentos, vinculos')
)
library(printr)
d
```
Para os dados em formato fwf, o pacote inclui, internamente, dicionários de importação. Esses dicionários foram criados com a função `import_SASdictionary()`, que pode ser utilizado pelo usuário para construir, a partir de um dicionário SAS, dicionários não incluídos no pacote. Dicionário incluídos no pacote podem ser acessados com a função `get_import_dictionary`.
O pacote também harmoniza nomes de arquivos e a estrutura das pastas ao longo tempo, através de uma tabela de metadados, tornando possível a importação de bases de dados que usualmente vem dividadas em subgroupos regionais (por UF ou região) em um único objeto.
## INSTALAÇÃO
```{r eval=FALSE}
install.packages("devtools")
install.packages("stringi")
devtools::install_github("lucasmation/microdadosBrasil")
library('microdadosBrasil')
```
## UTILIZAÇÃO
```{r eval=FALSE}
# Censo Demográfico 2000
#Depois de ter baixado e descompactado os arquivos em seu diretório de trabalho , rode:
d <- read_CENSO('domicilios',2000)
d <- read_CENSO('pessoas',2000)
#Para importar os dados a partir de uma pasta diferente de seu atual diretório de trabalho, use
d <- read_CENSO('domicilios',2000, root_path ="C:/....")
#Para restringir a importação para apenas uma UF, use:
d <- read_CENSO('pessoas',2000, UF = "DF")
# PNAD 2002
download_sourceData("PNAD", 2002, unzip = T)
d <- read_PNAD("domicilios", 2002)
d2 <- read_PNAD("pessoas", 2002)
# Censo Escolar
download_sourceData('CensoEscolar', 2005, unzip=T)
d <- read_CensoEscolar('escola',2005)
d <- read_CensoEscolar('escola',2005,harmonize_varnames=T)
#RAIS
#Para tentar baixar os dados de todo o ano de 2000 e todas as UFs
download_sourceData("RAIS", i = "2000")
#Para ler os dados de todas as UFs:
d<- read_RAIS('vinculos', i = 2000)
#Para ler os dados de UFs selecionadas:
d<- read_RAIS('vinculos', i = 2000, UF = c("DF","GO"))
#PME
#Irá baixar os dados para todo o ano de 2012, pois estes vem em um único arquivo:
download_sourceData("PME", i = "2012.01")
#O período deve ser inserido entre aspas e no formato YYYY.MM
d <- read_PME("vinculos", "2012.01")
```
## ESFORÇOS RELACIONADOS
Esse pacote foi altamente influenciado por esforços similares, que são grande poupadores de tempo, muito utilizados e, algumas vezes, não reconhecidos:
* [Scripts para ler a maioria das pesquisas do IBGE](http://www.asdfree.com/) de Anthony Damico. Excelente se seus dados não cabem na memória RAM e você quer velociadade para trabalhar com dados de amostras complexas.
* [Data Zoom](http://www.econ.puc-rio.br/datazoom/) por Gustavo Gonzaga, Cláudio Ferraz e Juliano Assunção. Esforço de simplificação para o software Stata. Além da importação, harmoniza nomes das variáveis.
* [dicionariosIBGE](https://cran.r-project.org/web/packages/dicionariosIBGE/index.html), por Alexandre Rademaker. Conjunto de data.frames contendo a informação dos dicionários de importação do SAS. .
* [IPUMS](https://international.ipums.org/international/). Harmonização de dados microdados de CENSO de vários países, incluindo o Brasil. Funções de importação para R, Stata, SAS e SPSS.
`microdadosBrasil` Se diferencia destes pacotes por:
* Trazer opções de importação para períodos mais recentes
* Incluir dados de outras fontes, além do IBGE, como Censo Escolar (do INEP) e a RAIS (do MTE).
* Separar código pra importação e os metadados específicos de cada base de dados, como explicado abaixo:
#### Princípios de concepção do pacote
O principal princípio utilizado na construção do pacote foi separar os detalhes de cada base de dados, como a estrutura de pastas e nome de arquivos em tabelas de metadados(salvos como arquivos .csv na pasta `extdata`). O conteúdo dessas tabelas, assim como uma lista contendo os dicionários de importação extraídos dos dicionários oficiais em formato SAS, seve como parâmetro para a importação dos microdados para cada ano. Essa separação entre detalhes específicos de cada base de dados e código torna o código mais simples e generalizável, facilitando a extensão para novas base de dados.
ergonomics over speed (develop)