diff --git a/next/blog/pt/analisando-o-brasil-nas-olimpiadas-2016.md b/next/blog/pt/analisando-o-brasil-nas-olimpiadas-2016.md index 87dff18e..8323b24f 100644 --- a/next/blog/pt/analisando-o-brasil-nas-olimpiadas-2016.md +++ b/next/blog/pt/analisando-o-brasil-nas-olimpiadas-2016.md @@ -10,9 +10,10 @@ authors: thumbnail: /blog/analisando-o-brasil-nas-olimpiadas-2016/image_0.jpg categories: [analise] medium_slug: https://medium.com/@basedosdados/o-brasil-nas-olimp%C3%ADadas-2a3f9960cc69 +published: true --- -> **Atenção**: Esse artigo foi publicado em 2021 e foi baseado num conjunto de dados que possuia informações até 2016. Para as olimpíadas de 2024, não encontramos os dados no mesmo formato, por isso incluímos dados até 2021 em um novo formato neste [novo conjunto de dados](https://basedosdados.org/dataset/62f8cb83-ac37-48be-874b-b94dd92d3e2b?table=567b1ccd-d8c2-4616-bacb-cf5c0e7b8d89). +> **Atenção**: Esse artigo foi publicado em 2021 e foi baseado num conjunto de dados que possuia informações até 2016. Para atualizar não encontramos os dados no mesmo formato, por isso incluímos dados até 2021 em um novo formato neste [novo conjunto de dados](https://basedosdados.org/dataset/62f8cb83-ac37-48be-874b-b94dd92d3e2b?table=567b1ccd-d8c2-4616-bacb-cf5c0e7b8d89). ## TL;DR Hoje começa mais uma edição das Olimpíadas, mas você sabia que os jogos da Era Moderna tiveram sua primeira edição em 1896? Nesse texto vamos apresentar dados históricos dos Jogos Olímpicos, que já estão limpos, tratados e disponíveis no datalake público da Base dos Dados. Os [microdados das Olimpíadas](/dataset/62f8cb83-ac37-48be-874b-b94dd92d3e2b?table=567b1ccd-d8c2-4616-bacb-cf5c0e7b8d89) trazem informações sobre os jogos, cidade sede, as delegações, atletas e suas características, além dos esportes, suas diferentes modalidades e medalhistas também. diff --git a/next/blog/pt/analisando-precos-de-combustiveis.md b/next/blog/pt/analisando-precos-de-combustiveis.md index ba8473d2..e8478fdc 100644 --- a/next/blog/pt/analisando-precos-de-combustiveis.md +++ b/next/blog/pt/analisando-precos-de-combustiveis.md @@ -1,5 +1,5 @@ --- -title: Analisando preços de combustíveis com a BD+ +title: Analisando preços de combustíveis com a BD description: >- Veja como analisar a variação média dos preços de combustíveis no Brasil com valores corrigidos pelo IPCA @@ -35,7 +35,7 @@ A base contém informações sobre a localização de cada posto (UF, município ## Como consultar esses dados -A BD+ permite que você acesse todas essas informações com uma simples consulta de SQL no BigQuery, ou através dos nossos pacotes no Python e no R. Por conta do tamanho da base, o download direto pela plataforma não é possível. +A BD permite que você acesse todas essas informações com uma simples consulta de SQL no BigQuery, ou através dos nossos pacotes no Python e no R. Por conta do tamanho da base, o download direto pela plataforma não é possível. Para explorar os dados dessa base, acesse a [página deste conjunto de dados](/dataset/c962b5e4-e71c-4e7c-b172-5e70951be633) em nossa plataforma e confira a seção Consulta aos Dados. @@ -47,7 +47,7 @@ Para explorar os dados dessa base, acesse a [página deste conjunto de dados](/d As notícias nos últimos meses têm anunciado a constante alta dos combustíveis. Muito se fala da gasolina à R$7, dos impostos, insumos e da cotação do dólar. Nossa análise propõe observar os dados deflacionados e comparados à inflação, isto é, a variação dos preços atuais em relação à variação do índice de preços ao consumidor. -Cumprindo a nossa missão — acessar os dados em um único lugar — conseguimos captar dados do [Índice Nacional de Preços ao Consumidor Amplo (IPCA)](/dataset/c58781fb-1177-448d-87ff-56b5cbf1735c), também disponíveis na BD+, além de manipular a nossa base de preços dos combustíveis da Agência Nacional do Petróleo, Gás Natural e Biocombustíveis (ANP). +Cumprindo a nossa missão — acessar os dados em um único lugar — conseguimos captar dados do [Índice Nacional de Preços ao Consumidor Amplo (IPCA)](/dataset/c58781fb-1177-448d-87ff-56b5cbf1735c), também disponíveis na BD, além de manipular a nossa base de preços dos combustíveis da Agência Nacional do Petróleo, Gás Natural e Biocombustíveis (ANP). Com o código SQL(query) abaixo, conseguiremos extrair: o ano e mês de referência das informações; o produto (combustível) e seu preço médio da base da ANP, além de atualizar o preço para os valores atuais com os dados da inflação. diff --git a/next/blog/pt/atualizar-como-funciona-o-sistema-de-insercao-de-dados-na-bd.md b/next/blog/pt/atualizar-como-funciona-o-sistema-de-insercao-de-dados-na-bd.md index 98f21cf3..f95cf2a3 100644 --- a/next/blog/pt/atualizar-como-funciona-o-sistema-de-insercao-de-dados-na-bd.md +++ b/next/blog/pt/atualizar-como-funciona-o-sistema-de-insercao-de-dados-na-bd.md @@ -57,7 +57,7 @@ No caminho para se tornar um analista de dados ou desenvolvedor nos encontramos Uma boa alternativa para lidar com dados reais e melhorar seu portfólio é ajudar a Base dos Dados com a sua ingestão de dados. No mínimo, você irá lidar com a captura de dados, preferencialmente de forma automatizada, com a arquitetura e a limpeza dos mesmos. Também vai interagir com ferramentas do dia a dia de um cientista de dados, como interfaces de linha de comando, YAML e BigQuery. A experiência conquistada pode ser crucial na entrada no mercado de trabalho. -Descrevemos em detalhes esse processo em [Colaborando com dados na BD+](https://basedosdados.github.io/mais/colab_data/). Em resumo o processo é dividido em quatro partes. Inicialmente você informa seu interesse para a BD. Então, faz a limpeza e tratamento dos dados que pretende subir. Em seguida realiza upload dos dados em seu BigQuery pessoal. E, por fim, envia os dados para revisão. +Descrevemos em detalhes esse processo em [Colaborando com dados na BD](https://basedosdados.github.io/mais/colab_data/). Em resumo o processo é dividido em quatro partes. Inicialmente você informa seu interesse para a BD. Então, faz a limpeza e tratamento dos dados que pretende subir. Em seguida realiza upload dos dados em seu BigQuery pessoal. E, por fim, envia os dados para revisão. ## Contribuindo com a infra diff --git a/next/blog/pt/atualizar-explorando-o-censo-escolar-com-a-bd.md b/next/blog/pt/atualizar-explorando-o-censo-escolar-com-a-bd.md index 9afcebe5..adaf7adc 100644 --- a/next/blog/pt/atualizar-explorando-o-censo-escolar-com-a-bd.md +++ b/next/blog/pt/atualizar-explorando-o-censo-escolar-com-a-bd.md @@ -1,5 +1,5 @@ --- -title: Explorando o Censo Escolar com a BD+ +title: Explorando o Censo Escolar com a BD description: >- Uma maneira prática de analisar a mais importante pesquisa estatística educacional do Brasil @@ -149,7 +149,7 @@ WHERE ## Pontos de contato com outras bases -O censo escolar por si só já disponibiliza uma grande variedade de variáveis. Caso você queira obter ainda mais, com a [BD+](https://basedosdados.github.io/mais/access_data_bq/) é fácil: como as bases têm os mesmos nomes de variável, podemos rapidamente juntar diferentes informações. A seguir separamos algumas bases já disponíveis na BD+ que podem complementar bem as tabelas do Censo Escolar: +O censo escolar por si só já disponibiliza uma grande variedade de variáveis. Caso você queira obter ainda mais, com a [BD](https://basedosdados.github.io/mais/access_data_bq/) é fácil: como as bases têm os mesmos nomes de variável, podemos rapidamente juntar diferentes informações. A seguir separamos algumas bases já disponíveis na BD que podem complementar bem as tabelas do Censo Escolar: [Os indicadores escolares do INEP](/dataset/63f1218f-c446-4835-b746-f109a338e3a1?table=cd65b1d2-45e8-432b-afe8-c3a706addbe8): O dataset `br_inep_indicadores_educacionais` apresenta uma série de medições sobre a qualidade de ensino, em diferentes níveis de agregação. Usando a tabela `escola` como ponte, podemos juntar **média de alunos por turma da escola** (proveniente dessa tabela) com **número de computadores da escola** (vindo do Censo) e **construir um mais amplo cenário socioeconômico da escola**. diff --git a/next/blog/pt/como-acessar-dados-da-bd-no-power-bi.md b/next/blog/pt/como-acessar-dados-da-bd-no-power-bi.md index 7c695fd0..5f925e13 100644 --- a/next/blog/pt/como-acessar-dados-da-bd-no-power-bi.md +++ b/next/blog/pt/como-acessar-dados-da-bd-no-power-bi.md @@ -11,6 +11,7 @@ thumbnail: /blog/como-acessar-dados-da-bd-no-power-bi/image_11.gif categories: [tutorial] medium_slug: > https://medium.com/basedosdados/como-acessar-dados-da-bd-no-power-bi-aeeea9a9bdc0 +published: true --- ## TL;DR diff --git a/next/blog/pt/como-acessar-dados-publicos-em-r.md b/next/blog/pt/como-acessar-dados-publicos-em-r.md index 77bd9935..ca15576f 100644 --- a/next/blog/pt/como-acessar-dados-publicos-em-r.md +++ b/next/blog/pt/como-acessar-dados-publicos-em-r.md @@ -1,6 +1,6 @@ --- title: Como acessar dados públicos em R -description: Um guia prático para utilizar nosso datalake BD+ na linguagem R +description: Um guia prático para utilizar nosso datalake na linguagem R date: created: "2021-05-12" thumbnail: /blog/como-acessar-dados-publicos-em-r/image_0.png @@ -10,15 +10,16 @@ authors: social: https://github.com/mavalentim categories: [tutorial] medium_slug: https://medium.com/@basedosdados/como-usar-a-bd-com-r-427aded95448 +published: true --- ## TL;DR -Neste texto vamos explicar **como usar a biblioteca** `basedosdados` no R para explorar as diversas bases tratadas do _datalake_ BD+. Para ilustrar **relação entre cobertura de saneamento básico e incidência de doenças de causa relacionada.** Serão apresentadas as funções presentes do pacote e como utilizá-las para realizar análises. +Neste texto vamos explicar **como usar a biblioteca** `basedosdados` no R para explorar as diversas bases tratadas do _datalake_. Para ilustrar **relação entre cobertura de saneamento básico e incidência de doenças de causa relacionada.** Serão apresentadas as funções presentes do pacote e como utilizá-las para realizar análises. -## Como acessar o datalake público BD+ +## Como acessar o datalake público Organizamos no _datalake_ as principais bases de dados públicas já tratadas e prontas para análise. O _datalake_ é mantido no ambiente da Google (BigQuery) e o acesso às bases é gratuito, com um limite mensal de 1TB por mês — acredite, nem a gente chega a tanto. @@ -103,7 +104,7 @@ basedosdados::read_sql( Para exemplificar o uso da biblioteca, vamos estudar duas variáveis **de bases diferentes** que acreditamos estar correlacionadas: **investimento em coleta de esgoto** e **mortes por doenças que se propagam na falta de saneamento básico**. -Para começar essa análise, iremos acessar os dados do [Atlas Esgotos da Agência Nacional das Águas](/dataset/fdd3e0b6-a5bd-4cb6-83c9-eae7cb5cdccb?table=7f12e752-d9db-4dd2-9ced-4650561d72d4). Ao acessar o link do conjunto de dados no nosso site (acima), você verá listado as “Tabelas tratadas BD+” — isso indica quais tabelas estão disponíveis no banco. +Para começar essa análise, iremos acessar os dados do [Atlas Esgotos da Agência Nacional das Águas](/dataset/fdd3e0b6-a5bd-4cb6-83c9-eae7cb5cdccb?table=7f12e752-d9db-4dd2-9ced-4650561d72d4). Ao acessar o link do conjunto de dados no nosso site (acima), você verá listado as “Tabelas tratadas” — isso indica quais tabelas estão disponíveis no banco. @@ -216,7 +217,7 @@ GROUP BY Outra aplicação importante do pacote é a possibilidade de **juntar diferentes bases sem ter que abrí-las individualmente**. -Para exemplificar, vamos comparar os dados que obtemos de saneamento com o **nível de mortalidade por doenças relacionadas à falta de saneamento**. Para explorar mortalidade precisamos de _número de óbitos_, que estão na tabela do [Sistema de Mortalidade do Ministério da Saúde (SIM)](/dataset/5beeec93-cbf3-43f6-9eea-9bee6a0d1683?table=dea823a5-cad7-4014-b77c-4aa33b3b0541), e da _população_, na [tabela de população do IBGE](/dataset/d30222ad-7a5c-4778-a1ec-f0785371d1ca?table=2440d076-8934-471f-8cbe-51faae387c66). Ambas as tabelas estão disponíveis na BD+ nos links acima! +Para exemplificar, vamos comparar os dados que obtemos de saneamento com o **nível de mortalidade por doenças relacionadas à falta de saneamento**. Para explorar mortalidade precisamos de _número de óbitos_, que estão na tabela do [Sistema de Mortalidade do Ministério da Saúde (SIM)](/dataset/5beeec93-cbf3-43f6-9eea-9bee6a0d1683?table=dea823a5-cad7-4014-b77c-4aa33b3b0541), e da _população_, na [tabela de população do IBGE](/dataset/d30222ad-7a5c-4778-a1ec-f0785371d1ca?table=2440d076-8934-471f-8cbe-51faae387c66). Ambas as tabelas estão disponíveis na BD nos links acima! Para cruzar as tabelas vamos filtrar ambas para o ano de 2013, referente ao Atlas Esgotos (tabela anterior), pela coluna `ano` presente em todas as tabelas. Além disso, vamos também escolher somente a mortalidade de `causa_basica` referente a **doenças diarréicas**, relacionadas à falta de saneamento básico. Os códigos de referência da coluna `causa_basica` na tabela SIM podem ser [consultados aqui](https://github.com/basedosdados/mais/blob/master/bases/br_ms_sim/dictionaries/CID10/CID-10-CATEGORIAS.CSV). A query abaixo faz esses filtros e seleciona as colunas tanto da base de população e quanto de mortalidade: diff --git a/next/blog/pt/construimos-um-novo-site.md b/next/blog/pt/construimos-um-novo-site.md index c1815fc9..7a30939f 100644 --- a/next/blog/pt/construimos-um-novo-site.md +++ b/next/blog/pt/construimos-um-novo-site.md @@ -139,7 +139,7 @@ Ouvimos outros pontos de melhoria, como diferenciar [o que é uma tabela tratada -13 de outubro de 2021, por coincidência a exatos 365 depois de subirmos o código que deu início ao _datalake_ BD+(se a gente tivesse combinado não acontecia!). Nos reunimos no final de domingo a noite (dia 12) para garantir que tudo sairia conforme o esperado. O horário era vital: **evitamos** **migrar durante um momento de alta utilização, pois iria quebrar o site e frustar diversos usuários.** +13 de outubro de 2021, por coincidência a exatos 365 depois de subirmos o código que deu início ao _datalake_ (se a gente tivesse combinado não acontecia!). Nos reunimos no final de domingo a noite (dia 12) para garantir que tudo sairia conforme o esperado. O horário era vital: **evitamos** **migrar durante um momento de alta utilização, pois iria quebrar o site e frustar diversos usuários.** > **Virar a chave após uma grande mudança nunca é um processo fácil.** diff --git a/next/blog/pt/relembrando-o-datathon-bd-2021.md b/next/blog/pt/relembrando-o-datathon-bd-2021.md index d7fe9ccb..131dce0f 100644 --- a/next/blog/pt/relembrando-o-datathon-bd-2021.md +++ b/next/blog/pt/relembrando-o-datathon-bd-2021.md @@ -17,7 +17,7 @@ A divulgação de dados públicos mostra em números a desigualdade em diferente Por isso, inspirados(as) no tema do Open Data Day 2021, resolvemos abrir espaço para programadores, jornalistas, pesquisadores e entusiastas de dados pensarem conosco como podemos identificar ou combater desigualdades no Brasil a partir de dados públicos. -E como começar? Nós demos o ponto de partida: a partir das mais de 30 bases públicas que disponibilizamos tratadas e integradas para uso da sociedade no nosso [_datalake_ público (BD+)](/dataset/?download_type=BD+Mais). Recebemos ao todo mais de 30 inscrições de diferentes públicos, agradecemos a participação de todas e todos! +E como começar? Nós demos o ponto de partida: a partir das mais de 30 bases públicas que disponibilizamos tratadas e integradas para uso da sociedade no nosso _datalake_ público. Recebemos ao todo mais de 30 inscrições de diferentes públicos, agradecemos a participação de todas e todos! > **Atenção: Nenhuma das análises tem a intenção de trazer evidências rigorosamente testadas sobre os temas abordados, mas sim explorar e abrir possíveis caminhos para pensarmos os mesmos.** @@ -29,7 +29,7 @@ Equipe: Erica Ferreira, Pedro Boechat, Pedro Borges e Rafael Ribeiro (graduandos > **Análise: De que forma diferenças no acesso a uma educação de qualidade se manifestam em diferentes regiões do país?** -Para entender melhor sobre essa e outras perguntas levantadas quanto à qualidade de ensino e investimento em educação, eles utilizaram ao todo 4 bases disponibilizadas na BD+: [Atlas do Desenvolvimento Humano (ADH)](/dataset/cbfc7253-089b-44e2-8825-755e1419efc8?table=2b704f11-2b3a-485d-a492-71f86c7ea21a), [Índice de Desenvolvimento da Educação Básica (Ideb)](/dataset/96eab476-5d30-459b-82be-f888d4d0d6b9?table=bc84dea9-1126-4423-86d2-8835e6b19a72), [Finanças do Brasil (Finbra)](/dataset/br-tesouro-finbra) e nossa base de [diretórios brasileiros](/dataset/33b49786-fb5f-496f-bb7c-9811c985af8e?table=0a2d8187-f936-437d-89db-b4eb3a7e1735), que liga diferentes identificações para municípios, estados e regiões do país. +Para entender melhor sobre essa e outras perguntas levantadas quanto à qualidade de ensino e investimento em educação, eles utilizaram ao todo 4 bases disponibilizadas na BD: [Atlas do Desenvolvimento Humano (ADH)](/dataset/cbfc7253-089b-44e2-8825-755e1419efc8?table=2b704f11-2b3a-485d-a492-71f86c7ea21a), [Índice de Desenvolvimento da Educação Básica (Ideb)](/dataset/96eab476-5d30-459b-82be-f888d4d0d6b9?table=bc84dea9-1126-4423-86d2-8835e6b19a72), [Finanças do Brasil (Finbra)](/dataset/br-tesouro-finbra) e nossa base de [diretórios brasileiros](/dataset/33b49786-fb5f-496f-bb7c-9811c985af8e?table=0a2d8187-f936-437d-89db-b4eb3a7e1735), que liga diferentes identificações para municípios, estados e regiões do país. [➡️ Confira a análise completa aqui](/ufrj-analytica/datathon-open-data-day-base-dos-dados-86079c93945f)