Add comment to explain delayed wrapping of tokenizer

Ben King · Ben King · commit 7d3c7d7af91d · 2025-03-13T16:18:23.000Z
diff --git a/silnlp/nmt/hugging_face_config.py b/silnlp/nmt/hugging_face_config.py
@@ -1212,6 +1212,8 @@ def translate(
             model.config.max_length = 512
         lang_codes: Dict[str, str] = self._config.data["lang_codes"]
 
+        # The tokenizer isn't wrapped until after calling _create_inference_model,
+        # because the tokenizer's input/output language codes are set there
         if isinstance(tokenizer, (NllbTokenizer, NllbTokenizerFast)):
             tokenizer = PunctuationNormalizingTokenizer(tokenizer)