Skip to content

Tokxml, filtrer les balises #7

@glorieux-f

Description

@glorieux-f

Pour un tokenizeur-lemmatiseur avec sortie xml (<w lem="lemme">mot</w>), il est parfois intéressant de filtrer les balises à lemmatiser, par exemple pas dans les notes, ou pas dans le front.

Pour se faire, il faudrait un automate XML qui garde la mémoire de la branche xml, puis il faut modifier le tokenizer pour pouvoir lui envoyer des bouts de texte au fur et à mesure.

Metadata

Metadata

Assignees

Type

No type

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions