Replies: 6 comments 14 replies
-
@jgmsantos você poderia compartilhar os códigos de ambos os testes que fez? Com isso poderemos tentar reproduzir o problema. |
Beta Was this translation helpful? Give feedback.
-
Seeguem os códigos: final.ipynb -> Jupiter Notebook -> este aqui está gerando 240000 linhas DATASUS_com_Python -> Google Colab -> este aqui está gerando 1880479 linhas |
Beta Was this translation helpful? Give feedback.
-
@jgmsantos você enviou dois links iguais (e nele o DF tem 1880479 registros). |
Beta Was this translation helpful? Give feedback.
-
@jgmsantos quais as versões do pysus e pandas você está rodando no seu jupyter notebook? Sugiro atualizar para a última versão, rodando |
Beta Was this translation helpful? Give feedback.
-
Em versões mais recentes do PySUS, quando vc executa o Uma estratégia seria, logo em seguida ao download, fazer o pth = SINAN.download(Agravo, Ano)
pd.read_parquet(pth, columns=['DT_SIN_PRI', 'CLASSI_FIN', 'SG_UF_NOT']) Assim você reduz significativamente o uso de memória. Aqui tem mais exemplos: |
Beta Was this translation helpful? Give feedback.
-
Normalmente o SO derruba o processo (kernel do jupyter) quando ele consome toda a memória. @turicas durante o Download, os dados nunca ficam integralmente em memória.
Em nenhum dos três passos acima todo o dado é carregado na memória. O arquivo pode ter 1TB que vai consumir a mesma quantidade máxima de memória: o equivalente a 30000 linhas dos dados. Para dar esta exceção de memória que vc sugere @turicas, teríamos que estimar a quantidade de memória utilizada pelos dados uma vez carregados, o que vai depender de vários fatores. Se o Pandas não faz isso, é porque não deve ser trivial estimar isso. Claro que para arquivos acima de um certo tamanho é meio óbvio que vai estourar a memória. |
Beta Was this translation helpful? Give feedback.
-
Olá, pessoal. Parabéns pelo excelente trabalho.
Estou com um problema. Estou usando a base SINAN para ver dengue. Meu objetvo é plotar uma série temporal (mensal e semana epidemiologica).
No Google Colab o total de linhas lido é de:
2863936 rows × 121 columns
Isso é o total do arquivo original, sem fazer nada, apenas leitura/visualização para o ano de 2024.
Agora, fiz um Jupyter Notebook e ele lê apenas:
240000 rows × 121 columns
É o mesmo script com resultados diferentes. Alguém poderia dar uma ajuda?
Uso o pysus: 0.11.0
At.te,
Guilherme Martins.
Beta Was this translation helpful? Give feedback.
All reactions