Skip to content

ArgonOutPlay/KNN

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

32 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Přepis ozdobných nápisů

Baseline

  • knn.ipynb - Načtení a otestování přesnosti ParSEQ modelu.

Natrénované modely

  • Na tomto odkazu naleznete dotrénovaný model na datovou sadu Wordart a natrénovaný model na český jazyk a mezery.
  • Výsledky modelu v porovnání s jinými můžete vidět v tabulce níže. Porovnání OCR výstupů různých modelů na příkladech i s českými slovy.

Použité datové sady

  • datové sady použité taktéž při trénování PARSeq, jsou dostupné zde.
  • ostatní datové sady, jedná se o Wordart, naši syntetickou datovou sadu pro trénování na češtinu a mezery a sadu historických dokumentů.

Analýza datové sady

  • utils/dataStat.py - Analýza délky slov a výskytu znaků podle labels.
  • utils/imageRes.py - Analýza velikosti obrázků dle obrázků.

Výsledky

  • Soubor docs/report.pdf obsahuje zprávu o provedené práci v rámci tohoto projektu.
  • Soubory docs/plakát.pdf a docs/plakát.png obsahují plakát vhodný pro rychlé seznámení s naší prací.

Generování syntetické datové sady

Textové soubory využitelné pro generování syntetických obrázků:

  • czech.txt - Kolekce cca 500 000 českých slov.

Scripty pro generování syntetických obrázků

  • utils/pairs_gen.py - Generátor dvojic slov ze seznamu slov.
  • utils/image_gen.py - Generátor obrázků z textového dokumentu slov. Využívá trdg.

Tvorba datové sady

  • utils/filtr_labels.py - Pomocný program pro odstranění neanotovaných řádků z labelů a změna cest.
  • utils/filtr_images.py - Pomocný program pro vytvoření složky obrázků, obsahujících pouze anotované vzorky.

Použité nástroje

Submodul Cesta Licence Licenční soubor
PARSeq external/parseq Apache 2.0 LICENSE
TextRecognitionDataGenerator external/TextRecognitionDataGenerator MIT LICENSE

About

No description, website, or topics provided.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 2

  •  
  •