- knn.ipynb - Načtení a otestování přesnosti ParSEQ modelu.
- Na tomto odkazu naleznete dotrénovaný model na datovou sadu Wordart a natrénovaný model na český jazyk a mezery.
- Výsledky modelu v porovnání s jinými můžete vidět v tabulce níže.

- datové sady použité taktéž při trénování PARSeq, jsou dostupné zde.
- ostatní datové sady, jedná se o Wordart, naši syntetickou datovou sadu pro trénování na češtinu a mezery a sadu historických dokumentů.
- utils/dataStat.py - Analýza délky slov a výskytu znaků podle labels.
- utils/imageRes.py - Analýza velikosti obrázků dle obrázků.
- Soubor docs/report.pdf obsahuje zprávu o provedené práci v rámci tohoto projektu.
- Soubory docs/plakát.pdf a docs/plakát.png obsahují plakát vhodný pro rychlé seznámení s naší prací.
- czech.txt - Kolekce cca 500 000 českých slov.
- utils/pairs_gen.py - Generátor dvojic slov ze seznamu slov.
- utils/image_gen.py - Generátor obrázků z textového dokumentu slov. Využívá trdg.
- utils/filtr_labels.py - Pomocný program pro odstranění neanotovaných řádků z labelů a změna cest.
- utils/filtr_images.py - Pomocný program pro vytvoření složky obrázků, obsahujících pouze anotované vzorky.
| Submodul | Cesta | Licence | Licenční soubor |
|---|---|---|---|
| PARSeq | external/parseq | Apache 2.0 | LICENSE |
| TextRecognitionDataGenerator | external/TextRecognitionDataGenerator | MIT | LICENSE |