Skip to content

LasTshaMAN/TermsExtractor

Repository files navigation

Данная программа является реализацией алгоритма выделения ключевых понятий, описанного в выпускной квалификационной работе:
"Автоматическое извлечение ключевых понятий из текста с учетом иерархической структуры предметной области"

Программа принимает на вход:
    - Документ под названием "target", который должен быть расположен в корневой директории данной программы. Это документ,
    из которого надо выделить ключевые понятия
    - Разбитый по темам корпус текстов, расположенный в директории "clustered_corpus". Сама директория "clustered_corpus"
    должна быть распложена в корневой директории данной программы. Внутри директории должны располагаться папки, каждая
    из которых содержит текстовые файлы, принадлежащие одной теме.

На выходе программа выдает ранжированный список кандидатов в ключевые понятия. Каждому кандидату соответсвует оценка
его релевантности - Rank. Для каждого кандидата в этой таблице содержатся так же значения признаков TF, IDF, CU и
значения DF на всех темах корпуса "clustered_corpus".

Для запуска данной программы потребуются:
	- Python интерпретатор (тестирование проводилось на версии 3.5.0)
	- Библиотеки nltk и prettytable

Библиотеки можно установить набором команд:
pip install nltk
pip install prettytable

Так же, необходимо запустить установочный скрипт Installer.py, который скачает метаданные для библиотеки nltk. Из директории проекта
запуск будет выглядить так:
python Installer.py

После этого можно запустить данную программу. Из директории проекта запуск будет выглядить так:
python Main.py

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages