-
Notifications
You must be signed in to change notification settings - Fork 0
LasTshaMAN/TermsExtractor
Folders and files
Name | Name | Last commit message | Last commit date | |
---|---|---|---|---|
Repository files navigation
Данная программа является реализацией алгоритма выделения ключевых понятий, описанного в выпускной квалификационной работе: "Автоматическое извлечение ключевых понятий из текста с учетом иерархической структуры предметной области" Программа принимает на вход: - Документ под названием "target", который должен быть расположен в корневой директории данной программы. Это документ, из которого надо выделить ключевые понятия - Разбитый по темам корпус текстов, расположенный в директории "clustered_corpus". Сама директория "clustered_corpus" должна быть распложена в корневой директории данной программы. Внутри директории должны располагаться папки, каждая из которых содержит текстовые файлы, принадлежащие одной теме. На выходе программа выдает ранжированный список кандидатов в ключевые понятия. Каждому кандидату соответсвует оценка его релевантности - Rank. Для каждого кандидата в этой таблице содержатся так же значения признаков TF, IDF, CU и значения DF на всех темах корпуса "clustered_corpus". Для запуска данной программы потребуются: - Python интерпретатор (тестирование проводилось на версии 3.5.0) - Библиотеки nltk и prettytable Библиотеки можно установить набором команд: pip install nltk pip install prettytable Так же, необходимо запустить установочный скрипт Installer.py, который скачает метаданные для библиотеки nltk. Из директории проекта запуск будет выглядить так: python Installer.py После этого можно запустить данную программу. Из директории проекта запуск будет выглядить так: python Main.py
About
No description, website, or topics provided.
Resources
Stars
Watchers
Forks
Releases
No releases published
Packages 0
No packages published