SentencePieceBPE + Unicode NFD preprocessing leads to noise ?

Hi,
I have had the issue multiple times, so I assume I am doing something wrong.

**Versions:**
- tokenizers==0.21.4
- transformers==4.55.4

**Training script**

```py
from transformers import PreTrainedTokenizerFast
from pathlib import Path
from read import get_texts_iter_for_tokenizer
from tokenizers import SentencePieceBPETokenizer, normalizers, pre_tokenizers

def main():
    output_dir = Path("hf_tokenizer")
    output_dir.mkdir(parents=True, exist_ok=True)

    # Dump texts to a file
    texts = get_texts_iter_for_tokenizer()

    # Train SentencePiece model
    tokenizer = SentencePieceBPETokenizer()

    # Adding normalization and pre_tokenizer
    tokenizer.normalizer = normalizers.Sequence([normalizers.NFD()])
    tokenizer.pre_tokenizer = pre_tokenizers.ByteLevel()

    # Adding special tokens and creating trainer instance
    special_tokens = ["<unk>", "<pad>", "<cls>", "<sep>", "<mask>"]

    # Training from iterator REMEMBER it's training on test set...
    tokenizer.train_from_iterator(texts, special_tokens=special_tokens, show_progress=True)

    fast_tokenizer = PreTrainedTokenizerFast(
        tokenizer_object=tokenizer,
        unk_token="<unk>",
        pad_token="<pad>",
        cls_token="<cls>",
        sep_token="<sep>",
        mask_token="<mask>"
    )
    fast_tokenizer.save_pretrained(str(output_dir))
```

Script to reproduce bug:

```py
from transformers import PreTrainedTokenizerFast

hf_tokenizer = PreTrainedTokenizerFast.from_pretrained("hf_tokenizer")

# Test
print(hf_tokenizer.tokenize("⁊ĩ rẽ dñi u̾sum"))
# ['âģĬ', 'i', 'Ìĥ', 'Ġre', 'Ìĥ', 'Ġdn', 'Ìĥ', 'i', 'Ġu', 'Ì¾', 'sum']
print(hf_tokenizer.decode(hf_tokenizer.encode("⁊ĩ rẽ dñi u̾sum"))
# âģĬiÌĥĠreÌĥĠdnÌĥiĠuÌ¾sum
```

I assume I am doing something wrong around preprocessing / postprocessing ?





Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

SentencePieceBPE + Unicode NFD preprocessing leads to noise ? #1851

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

SentencePieceBPE + Unicode NFD preprocessing leads to noise ? #1851

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions