Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Improve vosk word list / plibonigi la vosk-an vortaron #2

Open
stefangrotz opened this issue Jan 11, 2022 · 1 comment
Open

Improve vosk word list / plibonigi la vosk-an vortaron #2

stefangrotz opened this issue Jan 11, 2022 · 1 comment

Comments

@stefangrotz
Copy link
Member

stefangrotz commented Jan 11, 2022

The vosk model contains a vocabulary list:
https://raw.githubusercontent.com/parolteknologio/stt-esperanto/master/vosk/common-voice-corpus-7/vosk-model-small-eo-0.22/graph/words.txt

It contains non-esperanto words and some words or variants are missing. These things could be improved:

  • add missing words
  • add missing variants, for example add -oj, -ojn and -on variants for every noun and -aj, -ajn and -an to every adjective
  • delete non-esperanto words (some maybe should be kept)
  • delete errors, like x-writing system or wrong spelling

Here is the documentation of the language model: https://alphacephei.com/vosk//lm

Ne hezitu respondi en esperanto :)

@stefangrotz stefangrotz changed the title Improve vosk vocabulary list / plibonigi la vosk-an vortaron Improve vosk word list / plibonigi la vosk-an vortaron Jan 11, 2022
@mmearly
Copy link

mmearly commented Jan 30, 2022

Mi ne havas la kapablon helpi, sed mi nun estas en enkonduka kurso pri NLP kaj volas pli bone kompreni tion kio okazas.

Ĉu eblas plibonigi la sistemon per simpla plibonigado de la vortlisto? Laŭ mia kompreno, tio kio ja gravas estas la lingvomodelo kaj ĝia kapablo produkti gramatike ĝustajn frazojn. Sed por tio oni devus instrui ankaŭ la kuntekston en kiu la vortoj uziĝas, ĉu ne? Do por plibonigi la sistemon, ĉu oni ne devus krei tutnovan lingvomodelon?

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants