Этот парсер дает возможность быть в курсе новостей в мире Python. В нем реализованы следующие функции:
-Сбор ссылок на статьи о нововведениях в Python, переход по ним и сбор информации об авторах и редакторах статей.
-Сбор информации о статусах версий Python.
-Скачивание архива с актуальной документацией Python.
-Сбор данных обо всех документах PEP: сравнение статуса на странице каждого PEP со статусом в общем списке.
-Собранная информация записывается в файлы
-Управление парсером реализовано через аргументы командной строки.
Парсинг информации о Python со страницы: https://docs.python.org/3/
Парсинг информации о PEP со страницы: https://peps.python.org/
Клонировать репозиторий и перейти в него в командной строке:
git clone [email protected]:LukoninDmitryPy/bs4_parser_pep.gitCоздать и активировать виртуальное окружение:
python3 -m venv venv
source venv/Scripts/activateУстановить зависимости из файла requirements.txt:
python3 -m pip install --upgrade pip
pip install -r requirements.txtПрограмма запускается из main.py директории ./src/:
python main.py [вариант парсера] [аргументы]Парсер выводящий список изменений в Python.
python main.py whats-new [аргументы]Парсер выводящий список версий Python и ссылки на их документацию.
python main.py latest-versions [аргументы]Парсер скачивающий zip архив с документацией Python в pdf формате.
python main.py download [аргументы]Парсер выводящий список статусов документов pep и количество документов в каждом статусе.
python main.py pep [аргументы]Реализована возможность использования аргументов командной строки для изменения работы парсера:
- Общая информация о командах:
-h, --help
python main.py -h- Очистка кеша перед выполнением парсинга:
-c, --clear-cache
python main.py [вариант парсера] -c- Дополнительные способы вывода данных:
-o {pretty,file}, --output {pretty,file}
pretty - выводит данные в командной строке в таблице
python main.py [вариант парсера] -o prettyfile - сохраняет информацию в формате csv в папке ./results/
python main.py [вариант парсера] -o file