███ ███ ███████ ████████ █████ ███████ ██████ ██████ █████ ██████ ███████ ██████
████ ████ ██ ██ ██ ██ ██ ██ ██ ██ ██ ██ ██ ██ ██ ██ ██
██ ████ ██ █████ ██ ███████ ███████ ██ ██████ ███████ ██████ █████ ██████
██ ██ ██ ██ ██ ██ ██ ██ ██ ██ ██ ██ ██ ██ ██ ██ ██
██ ██ ███████ ██ ██ ██ ███████ ██████ ██ ██ ██ ██ ██ ███████ ██ ██ MetaScraper é uma ferramenta em Python para busca, download e análise de arquivos públicos encontrados em sites. Ele usa lynx e wget para encontrar arquivos de tipos específicos (como PDF, DOCX, JPG etc.) e exiftool para extrair seus metadados.
- Busca arquivos públicos usando Google Search (
site:<domínio> filetype:<tipo>). - Faz download de todos os arquivos encontrados com
wget. - Executa
exiftoolpara extrair metadados dos arquivos. - Salva os arquivos baixados em
files_recon/e os metadados emmeta_recon/.
Você pode instalar as dependências com:
sudo apt update
sudo apt install lynx wget libimage-exiftool-perl -ygit clone https://github.com/pietrohoff/MetaScraper.git
cd MetaScraperpython3 main.py <domínio> <tipo>python3 main.py interquimica.com.br pdf
python3 main.py exemplo.com jpg- Tipos disponíveis:
a: all.txtm: medium.txts: small.txt- Ou diretamente
pdf,jpg,docxetc.
Os arquivos serão salvos em:
files_recon/→ arquivos baixadosmeta_recon/→ metadados extraídos comexiftool
/MetaScraper
├── main.py # Script principal
├── lynx_installer.py # Verifica e instala o lynx
├── exiftool_installer.py # Verifica e instala o exiftool
├── word_lists/
│ ├── all.txt
│ ├── medium.txt
│ └── small.txt
├── files_recon/ # Arquivos baixados (ignorado pelo Git)
├── meta_recon/ # Metadados extraídos (ignorado pelo Git)
└── .gitignore # Define o que não será versionado
Para apagar os resultados:
rm -rf files_recon/*
rm -rf meta_recon/*Evite rodar o script como sudo, pois os arquivos ficarão com permissões de root.
- Faça um fork do projeto
- Crie uma branch:
git checkout -b minha-feature
- Commit:
git commit -m "Adiciona nova feature" - Push:
git push origin minha-feature
- Abra um Pull Request
Este projeto está sob a licença MIT. Consulte o arquivo LICENSE para mais informações.