From 87662eb0e099dc34ba3f8aa8527c8615da8b41cf Mon Sep 17 00:00:00 2001
From: Joel Lamy-Poirier <joel.lamy-poirier@servicenow.com>
Date: Fri, 14 Feb 2025 19:34:39 -0500
Subject: [PATCH 1/9] Dataset from file

---
 fast_llm/data/dataset/gpt/config.py           | 73 +++++++++++--------
 fast_llm/data/dataset/gpt/memmap.py           | 29 ++++++--
 .../data/preparator/gpt_memmap/prepare.py     | 24 +++---
 ...ed_memmap.py => test_dataset_from_file.py} |  1 -
 4 files changed, 77 insertions(+), 50 deletions(-)
 rename tests/data/{test_concatenated_memmap.py => test_dataset_from_file.py} (97%)

diff --git a/fast_llm/data/dataset/gpt/config.py b/fast_llm/data/dataset/gpt/config.py
index 80788922d..f676700b3 100644
--- a/fast_llm/data/dataset/gpt/config.py
+++ b/fast_llm/data/dataset/gpt/config.py
@@ -4,10 +4,11 @@
 import pathlib
 import time
 import typing
-import warnings
+
+import yaml
 
 from fast_llm.config import Config, Field, FieldHint, FieldUpdate, check_field, config_class, skip_valid_if_none
-from fast_llm.data.dataset.abstract import SampledDataset
+from fast_llm.data.dataset.abstract import SamplableDataset, SampledDataset
 from fast_llm.data.dataset.config import (
     BlendedDatasetConfig,
     ConcatenatedDatasetConfig,
@@ -164,11 +165,21 @@ class GPTMemmapDatasetConfig(GPTIndexedDatasetConfig):
         desc="The path to the dataset, excluding the `.bin` or `.idx` suffix.",
         hint=FieldHint.core,
     )
+    num_documents: int | None = Field(
+        default=None,
+        desc="Expected number of documents in the dataset.",
+        hint=FieldHint.optional,
+    )
+    num_tokens: int | None = Field(
+        default=None,
+        desc="Expected number of tokens in the dataset.",
+        hint=FieldHint.optional,
+    )
 
     def build(self) -> "GPTMemmapDataset":
         from fast_llm.data.dataset.gpt.memmap import GPTMemmapDataset
 
-        return GPTMemmapDataset(str(self.path).replace("/", "__"), self.path)
+        return GPTMemmapDataset(str(self.path).replace("/", "__"), self.path, self.num_documents, self.num_tokens)
 
 
 @config_class()
@@ -210,38 +221,42 @@ class GPTBlendedDatasetConfig(BlendedDatasetConfig, GPTSampledDatasetConfig):
 
 
 @config_class()
-class GPTConcatenatedMemmapConfig(GPTIndexedDatasetConfig):
+class GPTDatasetFromFile(GPTSamplableDatasetConfig):
     _abstract: typing.ClassVar[bool] = False
-    type_: typing.ClassVar[str | None] = "concatenated_memmap"
+    type_: typing.ClassVar[str | None] = "file"
     path: pathlib.Path = Field(
         default=None,
-        desc="The path to a dataset directory.",
+        desc="The path to a dataset config file.",
         hint=FieldHint.core,
     )
 
-    def build(self) -> "GPTConcatenatedDataset":
-        pass
-
-        assert self.path.is_dir()
-        index_path = self.path / "index.txt"
-
-        if index_path.is_file():
-            prefixes = [self.path / line.strip() for line in index_path.open("r").readlines()]
-        else:
-            warnings.warn(
-                f"The dataset path {self.path} points to a directory."
-                " The dataset will be indexed automatically, which may be unsafe."
-                " We recommend using an index file instead."
-            )
-            prefixes = [
-                path.with_suffix("")
-                for path in self.path.iterdir()
-                if path.suffix == ".idx" and path.is_file() and path.with_suffix(".bin").is_file()
-            ]
-        dataset_config = GPTConcatenatedDatasetConfig.from_dict(
-            {"datasets": [{"type": "memmap", "path": prefix} for prefix in prefixes]}
-        )
-        return dataset_config.build()
+    def build_and_sample(self, sampling: SamplingData) -> SampledDataset:
+        config = self._load_config()
+        return config.build_and_sample(sampling)
+
+    def build(self) -> SamplableDataset:
+        config = self._load_config()
+        assert isinstance(config, GPTConcatenatedDatasetConfig)
+        return config.build()
+
+    def _load_config(self):
+        assert self.path.is_file()
+        return GPTSampledDatasetConfig.from_dict(self._convert_paths(yaml.safe_load(self.path.open("r"))))
+
+    def _convert_paths(self, config):
+        # Recursively convert paths relative to `self.path.parent` to make them relative to cwd.
+        # Assuming all path are in a field named "path"
+        # TODO: Find a more generic way
+        if isinstance(config, dict):
+            for key, value in config.items():
+                self._convert_paths(value)
+            if "path" in config:
+                assert isinstance(config["path"], (str, pathlib.Path))
+                config["path"] = self.path.parent / config["path"]
+        elif isinstance(config, list):
+            for value in config:
+                self._convert_paths(value)
+        return config
 
 
 @config_class()
diff --git a/fast_llm/data/dataset/gpt/memmap.py b/fast_llm/data/dataset/gpt/memmap.py
index 3f6d17848..c95b3705e 100644
--- a/fast_llm/data/dataset/gpt/memmap.py
+++ b/fast_llm/data/dataset/gpt/memmap.py
@@ -20,10 +20,16 @@ class GPTMemmapDataset(GPTIndexedDataset):
     See https://github.com/NVIDIA/Megatron-LM?tab=readme-ov-file#data-preprocessing for more details.
     """
 
-    def __init__(self, name: str, prefix: pathlib.Path | str):
-        self._init(name, prefix)
-
-    def _init(self, name: str, prefix: pathlib.Path | str) -> None:
+    def __init__(
+        self,
+        name: str,
+        prefix: pathlib.Path | str,
+        num_documents: int | None = None,
+        num_tokens: int | None = None,
+    ):
+        self._init(name, prefix, num_documents, num_tokens)
+
+    def _init(self, name: str, prefix: pathlib.Path | str, num_documents: int | None, num_tokens: int | None) -> None:
         super().__init__()
         self._name = name
         self._prefix = pathlib.Path(prefix)
@@ -41,6 +47,9 @@ def _init(self, name: str, prefix: pathlib.Path | str) -> None:
             _ = struct.unpack("<Q", stream.read(8))[0]
             offset = stream.tell()
 
+        if num_documents is not None:
+            assert self._num_documents == num_documents
+
         self._index_bin_buffer_mmap = np.memmap(self._prefix.with_suffix(".idx"), mode="r", order="C")
         self._index_bin_buffer = memoryview(self._index_bin_buffer_mmap)
         self._document_sizes = np.frombuffer(
@@ -77,10 +86,14 @@ def _init(self, name: str, prefix: pathlib.Path | str) -> None:
         self._bin_buffer_mmap = np.memmap(self._prefix.with_suffix(".bin"), mode="r", order="C")
         self._bin_buffer = memoryview(self._bin_buffer_mmap)
 
-    def __getstate__(self) -> tuple[str, pathlib.Path]:
-        return (self._name, self._prefix)
+        self._num_tokens = div(self._bin_buffer_mmap.size, np.dtype(self._dtype).itemsize)
+        if num_tokens is not None:
+            assert self._num_tokens == num_tokens
+
+    def __getstate__(self) -> tuple[str, pathlib.Path, int | None, int | None]:
+        return (self._name, self._prefix, self._num_documents, self._num_tokens)
 
-    def __setstate__(self, state: tuple[str, pathlib.Path]):
+    def __setstate__(self, state: tuple[str, pathlib.Path, int | None, int | None]):
         self._init(*state)
 
     def __del__(self):
@@ -120,7 +133,7 @@ def __len__(self) -> int:
 
     @property
     def num_tokens(self) -> int:
-        return div(self._bin_buffer_mmap.size, np.dtype(self._dtype).itemsize)
+        return self._num_tokens
 
     def get_document_sizes(self) -> np.ndarray:
         """
diff --git a/fast_llm/data/preparator/gpt_memmap/prepare.py b/fast_llm/data/preparator/gpt_memmap/prepare.py
index e029137c9..9ffe3b7b7 100644
--- a/fast_llm/data/preparator/gpt_memmap/prepare.py
+++ b/fast_llm/data/preparator/gpt_memmap/prepare.py
@@ -12,6 +12,7 @@
 import torch.distributed
 import tqdm
 import transformers
+import yaml
 
 from fast_llm.data.dataset.gpt.memmap import GPTMemmapDataset
 from fast_llm.data.dataset.gpt.sampled import GPTSample
@@ -84,7 +85,8 @@ def _document_generator():
         GPTMemmapDataset.write_dataset(prefix=shard_output_path, documents=_document_generator())
 
         dataset_dict = {
-            "prefix": prefix,
+            "type": "memmap",
+            "path": prefix,
             "num_documents": len(shard_dataset),  # Use the length of the shard dataset directly
             "num_tokens": sum(len(doc["input_ids"]) for doc in shard_dataset),
         }
@@ -249,20 +251,18 @@ def run(self) -> None:
             else:
                 torch.distributed.gather_object(dataset_dicts, [], dst=0)
 
-        # Create a metadata file on rank 0
         if self._config.distributed.rank == 0:
-            total_tokens = sum(dataset_dict["num_tokens"] for dataset_dict in dataset_dicts)
-            for dataset_dict in dataset_dicts:
-                dataset_dict["weight"] = float(dataset_dict["num_tokens"]) / float(total_tokens)
-            output_file = self._config.output_path / "fast_llm_dataset.json"
-            json.dump({"datasets": dataset_dicts}, output_file.open("w"))
-
+            # Create a config file on rank 0
+            dataset_config = {
+                "type": "blended",
+                "datasets": [dataset_dict for dataset_dict in dataset_dicts],
+                "weights": [dataset_dict["num_tokens"] for dataset_dict in dataset_dicts],
+            }
+            yaml.safe_dump(dataset_config, (self._config.output_path / "fast_llm_config.yaml").open("w"))
+
+            # Save metadata on rank 0
             self._save_croissant_metadata()
 
-            # Create an index file on rank 0
-            index_file = self._config.output_path / "index.txt"
-            index_file.open("w").writelines([dataset_dict["prefix"] + "\n" for dataset_dict in dataset_dicts])
-
         # Finalize distributed processing
         if self._config.distributed.world_size > 1:
             torch.distributed.barrier()
diff --git a/tests/data/test_concatenated_memmap.py b/tests/data/test_dataset_from_file.py
similarity index 97%
rename from tests/data/test_concatenated_memmap.py
rename to tests/data/test_dataset_from_file.py
index e8f7c149b..8f06b173e 100644
--- a/tests/data/test_concatenated_memmap.py
+++ b/tests/data/test_dataset_from_file.py
@@ -1,4 +1,3 @@
-from fast_llm.data.dataset.gpt.config import GPTConcatenatedMemmapConfig
 from fast_llm.engine.distributed.config import PhaseType
 from tests.common import DATASET_CACHE, get_test_concatenated_memmap_dataset
 from tests.data.common import (

From a2eb57f45e3493a399be37b835031650da661baa Mon Sep 17 00:00:00 2001
From: Joel Lamy-Poirier <joel.lamy-poirier@servicenow.com>
Date: Fri, 14 Feb 2025 20:16:03 -0500
Subject: [PATCH 2/9] fix

---
 fast_llm/data/preparator/gpt_memmap/prepare.py | 9 +++++++++
 1 file changed, 9 insertions(+)

diff --git a/fast_llm/data/preparator/gpt_memmap/prepare.py b/fast_llm/data/preparator/gpt_memmap/prepare.py
index 9ffe3b7b7..173542856 100644
--- a/fast_llm/data/preparator/gpt_memmap/prepare.py
+++ b/fast_llm/data/preparator/gpt_memmap/prepare.py
@@ -260,6 +260,15 @@ def run(self) -> None:
             }
             yaml.safe_dump(dataset_config, (self._config.output_path / "fast_llm_config.yaml").open("w"))
 
+            # Legacy dataset format
+            # TODO v0.3: Update docs/tutorial, then remove.
+            dataset_config = {
+                "type": "blended",
+                "datasets": [dataset_dict for dataset_dict in dataset_dicts],
+                "weights": [dataset_dict["num_tokens"] for dataset_dict in dataset_dicts],
+            }
+            yaml.safe_dump(dataset_config, (self._config.output_path / "fast_llm_config.yaml").open("w"))
+
             # Save metadata on rank 0
             self._save_croissant_metadata()
 

From 194140c2b360ef0cc1a0cca5f18d2a7621529061 Mon Sep 17 00:00:00 2001
From: Joel Lamy-Poirier <joel.lamy-poirier@servicenow.com>
Date: Fri, 14 Feb 2025 21:00:44 -0500
Subject: [PATCH 3/9] fixes

---
 fast_llm/data/dataset/gpt/config.py           |  4 +-
 .../data/preparator/gpt_memmap/prepare.py     | 14 ++--
 tests/common.py                               | 32 +++-----
 tests/data/test_dataset_from_file.py          | 80 +++----------------
 4 files changed, 29 insertions(+), 101 deletions(-)

diff --git a/fast_llm/data/dataset/gpt/config.py b/fast_llm/data/dataset/gpt/config.py
index f676700b3..7a0dc447d 100644
--- a/fast_llm/data/dataset/gpt/config.py
+++ b/fast_llm/data/dataset/gpt/config.py
@@ -221,7 +221,7 @@ class GPTBlendedDatasetConfig(BlendedDatasetConfig, GPTSampledDatasetConfig):
 
 
 @config_class()
-class GPTDatasetFromFile(GPTSamplableDatasetConfig):
+class GPTDatasetFromFileConfig(GPTSamplableDatasetConfig):
     _abstract: typing.ClassVar[bool] = False
     type_: typing.ClassVar[str | None] = "file"
     path: pathlib.Path = Field(
@@ -236,7 +236,7 @@ def build_and_sample(self, sampling: SamplingData) -> SampledDataset:
 
     def build(self) -> SamplableDataset:
         config = self._load_config()
-        assert isinstance(config, GPTConcatenatedDatasetConfig)
+        assert isinstance(config, GPTSamplableDatasetConfig)
         return config.build()
 
     def _load_config(self):
diff --git a/fast_llm/data/preparator/gpt_memmap/prepare.py b/fast_llm/data/preparator/gpt_memmap/prepare.py
index 173542856..3d6ec9a5f 100644
--- a/fast_llm/data/preparator/gpt_memmap/prepare.py
+++ b/fast_llm/data/preparator/gpt_memmap/prepare.py
@@ -253,11 +253,15 @@ def run(self) -> None:
 
         if self._config.distributed.rank == 0:
             # Create a config file on rank 0
-            dataset_config = {
-                "type": "blended",
-                "datasets": [dataset_dict for dataset_dict in dataset_dicts],
-                "weights": [dataset_dict["num_tokens"] for dataset_dict in dataset_dicts],
-            }
+            dataset_config = (
+                dataset_dicts[0]
+                if len(dataset_dicts) == 1
+                else {
+                    "type": "blended",
+                    "datasets": [dataset_dict for dataset_dict in dataset_dicts],
+                    "weights": [dataset_dict["num_tokens"] for dataset_dict in dataset_dicts],
+                }
+            )
             yaml.safe_dump(dataset_config, (self._config.output_path / "fast_llm_config.yaml").open("w"))
 
             # Legacy dataset format
diff --git a/tests/common.py b/tests/common.py
index 9e82ab540..35952b1d5 100644
--- a/tests/common.py
+++ b/tests/common.py
@@ -9,6 +9,7 @@
 import numpy as np
 import pytest
 import torch
+import yaml
 
 from fast_llm.data.dataset.gpt.memmap import GPTMemmapDataset
 from fast_llm.data.dataset.gpt.sampled import GPTSample
@@ -225,7 +226,11 @@ def get_test_dataset(
 
         transformers.AutoTokenizer.from_pretrained("bigcode/santacoder").save_pretrained(TOKENIZER_PATH)
 
-    if not (prefix.with_suffix(".idx").is_file() and prefix.with_suffix(".bin").is_file()):
+    if not (
+        prefix.with_suffix(".idx").is_file()
+        and prefix.with_suffix(".bin").is_file()
+        and prefix.parent.joinpath("fast_llm_config.yaml").is_file()
+    ):
         import transformers
 
         texts = "".join(random.Random(seed).choices(characters, k=num_tokens)).splitlines()
@@ -242,28 +247,9 @@ def get_test_dataset(
                 sample.loss_masking_spans = span[: len(span) // 2 * 2].reshape(-1, 2)
 
         GPTMemmapDataset.write_dataset(prefix, samples)
-
-
-def get_test_concatenated_memmap_dataset(
-    path: pathlib.Path,
-    num_files: int,
-    seed: int = 1234,
-    num_tokens: int = TEST_DATASET_TOKENS,
-    characters: str = TEST_CHARACTERS,
-    vocab_size: int = TEST_VOCAB_SIZE,
-    seed_shift: int = 55,
-):
-    index_file = path / "index.txt"
-    if not index_file.is_file():
-        for i in range(num_files):
-            get_test_dataset(
-                prefix=path / f"dataset_{i}",
-                seed=seed + i * seed_shift,
-                num_tokens=num_tokens,
-                characters=characters,
-                vocab_size=vocab_size,
-            )
-        index_file.open("w").writelines([str(path / f"dataset_{i}") + "\n" for i in range(num_files)])
+        yaml.safe_dump(
+            {"type": "memmap", "path": prefix.name}, prefix.parent.joinpath("fast_llm_config.yaml").open("w")
+        )
 
 
 def run_test_script(
diff --git a/tests/data/test_dataset_from_file.py b/tests/data/test_dataset_from_file.py
index 8f06b173e..280b34137 100644
--- a/tests/data/test_dataset_from_file.py
+++ b/tests/data/test_dataset_from_file.py
@@ -1,73 +1,11 @@
-from fast_llm.engine.distributed.config import PhaseType
-from tests.common import DATASET_CACHE, get_test_concatenated_memmap_dataset
-from tests.data.common import (
-    compare_indexed_dataset,
-    get_dataset_config,
-    get_sampling_data,
-    get_test_data_and_compare_samples,
-    validate_indexed_dataset_sampling,
-)
-from tests.data.test_memmap import MEMMAP_DATASET_SAMPLES
+from fast_llm.data.dataset.gpt.config import GPTDatasetFromFileConfig
+from tests.common import DATASET_PREFIX, get_test_dataset
+from tests.data.common import compare_indexed_dataset, get_dataset_config
+from tests.data.test_memmap import MEMMAP_DATASET_LENGTH, MEMMAP_DATASET_SAMPLES, MEMMAP_DATASET_TOKENS
 
-_DATASET_PREFIX_MIX_CONCATENATED_MEMMAP = DATASET_CACHE / "concatenated_memmap"
 
-
-def _get_test_dataset_concatenated_memmap():
-    return get_test_concatenated_memmap_dataset(_DATASET_PREFIX_MIX_CONCATENATED_MEMMAP, 4)
-
-
-CONCATENATED_MEMMAP_DATASET_LENGTH = 24806
-CONCATENATED_MEMMAP_DATASET_TOKENS = 2033639
-CONCATENATED_MEMMAP_DATASET_SAMPLES = {
-    **MEMMAP_DATASET_SAMPLES,
-    6930: [65, 2327],
-    11962: [7078, 2713, 1431],
-    15958: [207],
-    19362: [69],
-    24098: [555, 668, 70],
-}
-CONCATENATED_MEMMAP_SAMPLES = [
-    [7554, 80, 5970, 87, 477, 4119],
-    [4119, 6506, 74, 447, 87, 277],
-    [277, 320, 2597, 4117, 301, 727],
-    [727, 330, 3067, 2740, 81, 417],
-    [417, 1486, 542, 248, 540, 1364],
-    [1364, 7072, 2516, 2455, 79, 207],
-    [207, 727, 2204, 2379, 540, 1322],
-    [1322, 365, 2009, 72, 489, 1886],
-]
-
-
-def test_gpt_concatenated_memmap():
-    # Make sure dataset splitting works and check for unintended changes in behavior.
-    _get_test_dataset_concatenated_memmap()
-    # samples[9:18]
-    dataset = get_dataset_config(
-        {"type": "concatenated_memmap", "path": _DATASET_PREFIX_MIX_CONCATENATED_MEMMAP},
-        GPTConcatenatedMemmapConfig,
-    ).build()
-    compare_indexed_dataset(
-        dataset,
-        CONCATENATED_MEMMAP_DATASET_LENGTH,
-        CONCATENATED_MEMMAP_DATASET_TOKENS,
-        CONCATENATED_MEMMAP_DATASET_SAMPLES,
-    )
-    sampled = dataset.sample(get_sampling_data(8, sequence_length=5))
-    validate_indexed_dataset_sampling(sampled, CONCATENATED_MEMMAP_SAMPLES)
-
-
-def test_gpt_concatenated_memmap_data():
-    _get_test_dataset_concatenated_memmap()
-    get_test_data_and_compare_samples(
-        {
-            "datasets": {
-                "Training": {
-                    "type": "concatenated_memmap",
-                    "path": _DATASET_PREFIX_MIX_CONCATENATED_MEMMAP,
-                }
-            }
-        },
-        {PhaseType.training: 8},
-        sequence_length=5,
-        expected_samples={PhaseType.training: CONCATENATED_MEMMAP_SAMPLES},
-    )
+def test_dataset_from_file():
+    get_test_dataset()
+    dataset_config = {"type": "file", "path": str(DATASET_PREFIX.parent.joinpath("fast_llm_config.yaml"))}
+    dataset = get_dataset_config(dataset_config, GPTDatasetFromFileConfig).build()
+    compare_indexed_dataset(dataset, MEMMAP_DATASET_LENGTH, MEMMAP_DATASET_TOKENS, MEMMAP_DATASET_SAMPLES)

From 06ccacae5018015167302b1acc7ad66e87f240cc Mon Sep 17 00:00:00 2001
From: Joel Lamy-Poirier <joel.lamy-poirier@servicenow.com>
Date: Mon, 17 Feb 2025 19:19:58 -0500
Subject: [PATCH 4/9] Split in prepare

---
 fast_llm/data/dataset/gpt/sampled.py          | 12 ++-
 fast_llm/data/preparator/gpt_memmap/config.py |  6 ++
 .../data/preparator/gpt_memmap/prepare.py     | 82 ++++++++++++++++---
 fast_llm/utils.py                             |  5 +-
 4 files changed, 92 insertions(+), 13 deletions(-)

diff --git a/fast_llm/data/dataset/gpt/sampled.py b/fast_llm/data/dataset/gpt/sampled.py
index e88a4efe0..9fa830fd3 100644
--- a/fast_llm/data/dataset/gpt/sampled.py
+++ b/fast_llm/data/dataset/gpt/sampled.py
@@ -154,10 +154,20 @@ def _sample(self) -> None:
             "config": self._config.to_serialized(),
         }
         self._load_yaml_data(yaml_data)
+
         if self._yaml_path is not None:
             if self._yaml_path.is_file():
-                Assert.eq(yaml.safe_load(self._yaml_path.open("r")), yaml_data)
+                loaded_yaml_data = yaml.safe_load(self._yaml_path.open("r"))
+                if loaded_yaml_data != yaml_data:
+                    raise RuntimeError(
+                        f"Invalid dataset cache for dataset {self.name}."
+                        " If this is due to an intended configuration change,"
+                        " please delete the cache before continuing."
+                        f"\nCurrent config:\n{yaml.safe_dump(yaml_data)}"
+                        f"\nCached config:\n{yaml.safe_dump(loaded_yaml_data)}"
+                    )
                 # Dataset is already sampled, skip.
+                logger.info(f"Using existing sampling for dataset {self.name}")
                 return
             else:
                 self._yaml_path.parent.mkdir(parents=True, exist_ok=True)
diff --git a/fast_llm/data/preparator/gpt_memmap/config.py b/fast_llm/data/preparator/gpt_memmap/config.py
index 63f20bf39..7872f58ac 100644
--- a/fast_llm/data/preparator/gpt_memmap/config.py
+++ b/fast_llm/data/preparator/gpt_memmap/config.py
@@ -158,6 +158,12 @@ class GPTMemmapDatasetPreparatorConfig(DatasetPreparatorConfig):
         desc="Configuration for the tokenizer.",
         hint=FieldHint.feature,
     )
+    splits: dict[str, int] | None = Field(
+        default=None,
+        desc="Split the output dataset into multiple ones (ex, train/valid/test) with the specified ratios."
+        " Does not shuffle samples.",
+        hint=FieldHint.optional,
+    )
 
     def _validate(self) -> None:
         assert self.tokenizer.path is not None
diff --git a/fast_llm/data/preparator/gpt_memmap/prepare.py b/fast_llm/data/preparator/gpt_memmap/prepare.py
index 3d6ec9a5f..9aed4f60a 100644
--- a/fast_llm/data/preparator/gpt_memmap/prepare.py
+++ b/fast_llm/data/preparator/gpt_memmap/prepare.py
@@ -20,10 +20,45 @@
 from fast_llm.data.preparator.gpt_memmap.config import GPTMemmapDatasetPreparatorConfig
 from fast_llm.data.tokenizer import Tokenizer
 from fast_llm.engine.config_utils.data_type import DataType
+from fast_llm.utils import normalize_probabilities, padded_cumsum
 
 logger = logging.getLogger(__name__)
 
 
+def _split_memmap_dataset(splits: dict[str, int | float], dataset_dicts: list[dict], weights: list[int | float]):
+    split_cumsum = padded_cumsum(normalize_probabilities(list(splits.values()), return_array=True))
+    dataset_probabilities = normalize_probabilities(weights, return_array=True)
+    dataset_cumsums = padded_cumsum(dataset_probabilities)
+    dataset_index = 0
+    split_index = 0
+    dataset_splits = {split_name: [] for split_name in splits}
+    # for split_index, split_name in enumerate(self._config.splits):
+    #    dataset_split=[]
+    split_names = list(dataset_splits)
+    while split_index < len(splits):
+        split_begin_in_dataset = max(
+            (split_cumsum[split_index] - dataset_cumsums[dataset_index]) / dataset_probabilities[dataset_index], 0
+        )
+        split_end_in_dataset = min(
+            (split_cumsum[split_index + 1] - dataset_cumsums[dataset_index]) / dataset_probabilities[dataset_index], 1
+        )
+        dataset_splits[split_names[split_index]].append(
+            dataset_dicts[dataset_index]
+            if split_begin_in_dataset == 0 and split_end_in_dataset == 1
+            else {
+                "type": "slice",
+                "dataset": dataset_dicts[dataset_index],
+                "begin": split_begin_in_dataset,
+                "end": split_end_in_dataset,
+            }
+        )
+        if dataset_cumsums[dataset_index + 1] >= split_cumsum[split_index]:
+            split_index += 1
+        else:
+            dataset_index += 1
+    return dataset_splits
+
+
 class GPTMemmapDatasetPreparator[ConfigType: GPTMemmapDatasetPreparatorConfig](DatasetPreparator[ConfigType]):
     config_class: typing.ClassVar[type[GPTMemmapDatasetPreparatorConfig]] = GPTMemmapDatasetPreparatorConfig
 
@@ -252,7 +287,22 @@ def run(self) -> None:
                 torch.distributed.gather_object(dataset_dicts, [], dst=0)
 
         if self._config.distributed.rank == 0:
-            # Create a config file on rank 0
+            # Create the config file(s) on rank 0
+            if self._config.splits:
+                for split_name, dataset_dicts_ in _split_memmap_dataset(
+                    self._config.splits, dataset_dicts, num_tokens
+                ).items():
+                    self._save_dataset_config(
+                        self._config.output_path / f"fast_llm_config_{split_name}.yaml", dataset_dicts_, num_tokens
+                    )
+
+            else:
+                self._save_dataset_config(
+                    self._config.output_path / "fast_llm_config.yaml",
+                    dataset_dicts,
+                    [dataset_dict["num_tokens"] for dataset_dict in dataset_dicts],
+                )
+
             dataset_config = (
                 dataset_dicts[0]
                 if len(dataset_dicts) == 1
@@ -264,15 +314,6 @@ def run(self) -> None:
             )
             yaml.safe_dump(dataset_config, (self._config.output_path / "fast_llm_config.yaml").open("w"))
 
-            # Legacy dataset format
-            # TODO v0.3: Update docs/tutorial, then remove.
-            dataset_config = {
-                "type": "blended",
-                "datasets": [dataset_dict for dataset_dict in dataset_dicts],
-                "weights": [dataset_dict["num_tokens"] for dataset_dict in dataset_dicts],
-            }
-            yaml.safe_dump(dataset_config, (self._config.output_path / "fast_llm_config.yaml").open("w"))
-
             # Save metadata on rank 0
             self._save_croissant_metadata()
 
@@ -280,3 +321,24 @@ def run(self) -> None:
         if self._config.distributed.world_size > 1:
             torch.distributed.barrier()
             torch.distributed.destroy_process_group()
+
+    def _save_dataset_config(self, path: pathlib.Path, dataset_dicts: list[dict], num_tokens: list[int]) -> None:
+        dataset_config = (
+            dataset_dicts[0]
+            if len(dataset_dicts) == 1
+            else {
+                "type": "blended",
+                "datasets": [dataset_dict for dataset_dict in dataset_dicts],
+                "weights": num_tokens,
+            }
+        )
+        yaml.safe_dump(dataset_config, (self._config.output_path / "fast_llm_config.yaml").open("w"))
+
+        # Legacy dataset format
+        # TODO v0.3: Update docs/tutorial, then remove.
+        dataset_config = {
+            "type": "blended",
+            "datasets": [dataset_dict for dataset_dict in dataset_dicts],
+            "weights": num_tokens,
+        }
+        yaml.safe_dump(dataset_config, path.open("w"))
diff --git a/fast_llm/utils.py b/fast_llm/utils.py
index c00e42ba1..d91e1e7c8 100644
--- a/fast_llm/utils.py
+++ b/fast_llm/utils.py
@@ -238,14 +238,15 @@ def log[
         return logged
 
 
-def normalize_probabilities(p: "npt.ArrayLike") -> list[float]:
+def normalize_probabilities(p: "npt.ArrayLike", return_array: bool = False) -> list[float] | np.ndarray:
     import numpy as np
 
     p = np.array(p)
     Assert.custom(lambda x: np.all(x >= 0), p)
     p_sum = p.sum()
     Assert.gt(p_sum, 0)
-    return (p / p_sum).tolist()
+    out = p / p_sum
+    return out if return_array else out.tolist()
 
 
 def set_nested_dict_value[

From 6407744e7ad0de3b4f8ec0e9433a96c19c300f2b Mon Sep 17 00:00:00 2001
From: Joel Lamy-Poirier <joel.lamy-poirier@servicenow.com>
Date: Mon, 17 Feb 2025 21:56:18 -0500
Subject: [PATCH 5/9] misc

---
 fast_llm/data/dataset/gpt/config.py           |  40 +++++
 .../data/preparator/gpt_memmap/prepare.py     | 164 +++++++++---------
 tests/common.py                               |  22 +++
 tests/data/test_concatenated_memmap.py        |  74 ++++++++
 4 files changed, 217 insertions(+), 83 deletions(-)
 create mode 100644 tests/data/test_concatenated_memmap.py

diff --git a/fast_llm/data/dataset/gpt/config.py b/fast_llm/data/dataset/gpt/config.py
index 7a0dc447d..d6cebd75e 100644
--- a/fast_llm/data/dataset/gpt/config.py
+++ b/fast_llm/data/dataset/gpt/config.py
@@ -4,6 +4,7 @@
 import pathlib
 import time
 import typing
+import warnings
 
 import yaml
 
@@ -259,6 +260,45 @@ def _convert_paths(self, config):
         return config
 
 
+@config_class()
+class GPTConcatenatedMemmapConfig(GPTIndexedDatasetConfig):
+    # TODO v0.3: Remove.
+    _abstract: typing.ClassVar[bool] = False
+    type_: typing.ClassVar[str | None] = "concatenated_memmap"
+    path: pathlib.Path = Field(
+        default=None,
+        desc="The path to a dataset directory.",
+        hint=FieldHint.core,
+    )
+
+    def _validate(self) -> None:
+        warnings.warn("`concatenated_memmap` dataset is deprecated. Use `file` instead.", DeprecationWarning)
+        super()._validate()
+
+    def build(self) -> "GPTConcatenatedDataset":
+
+        assert self.path.is_dir()
+        index_path = self.path / "index.txt"
+
+        if index_path.is_file():
+            prefixes = [self.path / line.strip() for line in index_path.open("r").readlines()]
+        else:
+            warnings.warn(
+                f"The dataset path {self.path} points to a directory."
+                " The dataset will be indexed automatically, which may be unsafe."
+                " We recommend using an index file instead."
+            )
+            prefixes = [
+                path.with_suffix("")
+                for path in self.path.iterdir()
+                if path.suffix == ".idx" and path.is_file() and path.with_suffix(".bin").is_file()
+            ]
+        dataset_config = GPTConcatenatedDatasetConfig.from_dict(
+            {"datasets": [{"type": "memmap", "path": prefix} for prefix in prefixes]}
+        )
+        return dataset_config.build()
+
+
 @config_class()
 class FimConfig(Config):
     """
diff --git a/fast_llm/data/preparator/gpt_memmap/prepare.py b/fast_llm/data/preparator/gpt_memmap/prepare.py
index 9aed4f60a..2e75a671b 100644
--- a/fast_llm/data/preparator/gpt_memmap/prepare.py
+++ b/fast_llm/data/preparator/gpt_memmap/prepare.py
@@ -14,6 +14,7 @@
 import transformers
 import yaml
 
+from fast_llm.data.dataset.gpt.config import GPTDatasetSliceConfig, GPTIndexedDatasetConfig, GPTMemmapDatasetConfig
 from fast_llm.data.dataset.gpt.memmap import GPTMemmapDataset
 from fast_llm.data.dataset.gpt.sampled import GPTSample
 from fast_llm.data.preparator.config import DatasetPreparator
@@ -25,40 +26,6 @@
 logger = logging.getLogger(__name__)
 
 
-def _split_memmap_dataset(splits: dict[str, int | float], dataset_dicts: list[dict], weights: list[int | float]):
-    split_cumsum = padded_cumsum(normalize_probabilities(list(splits.values()), return_array=True))
-    dataset_probabilities = normalize_probabilities(weights, return_array=True)
-    dataset_cumsums = padded_cumsum(dataset_probabilities)
-    dataset_index = 0
-    split_index = 0
-    dataset_splits = {split_name: [] for split_name in splits}
-    # for split_index, split_name in enumerate(self._config.splits):
-    #    dataset_split=[]
-    split_names = list(dataset_splits)
-    while split_index < len(splits):
-        split_begin_in_dataset = max(
-            (split_cumsum[split_index] - dataset_cumsums[dataset_index]) / dataset_probabilities[dataset_index], 0
-        )
-        split_end_in_dataset = min(
-            (split_cumsum[split_index + 1] - dataset_cumsums[dataset_index]) / dataset_probabilities[dataset_index], 1
-        )
-        dataset_splits[split_names[split_index]].append(
-            dataset_dicts[dataset_index]
-            if split_begin_in_dataset == 0 and split_end_in_dataset == 1
-            else {
-                "type": "slice",
-                "dataset": dataset_dicts[dataset_index],
-                "begin": split_begin_in_dataset,
-                "end": split_end_in_dataset,
-            }
-        )
-        if dataset_cumsums[dataset_index + 1] >= split_cumsum[split_index]:
-            split_index += 1
-        else:
-            dataset_index += 1
-    return dataset_splits
-
-
 class GPTMemmapDatasetPreparator[ConfigType: GPTMemmapDatasetPreparatorConfig](DatasetPreparator[ConfigType]):
     config_class: typing.ClassVar[type[GPTMemmapDatasetPreparatorConfig]] = GPTMemmapDatasetPreparatorConfig
 
@@ -101,7 +68,7 @@ def _tokenize_batch_with_spans(self, batch: dict[str, list[typing.Any]]) -> dict
             "num_tokens": num_tokens,
         }
 
-    def _save_shard(self, args: tuple[int, datasets.Dataset]) -> dict[str, typing.Any]:
+    def _save_shard(self, args: tuple[int, datasets.Dataset]) -> GPTMemmapDatasetConfig:
         shard_idx, shard_dataset = args
         prefix = f"shard_{self._config.distributed.rank}_{shard_idx}"
         shard_output_path = self._config.output_path / prefix
@@ -119,13 +86,14 @@ def _document_generator():
 
         GPTMemmapDataset.write_dataset(prefix=shard_output_path, documents=_document_generator())
 
-        dataset_dict = {
-            "type": "memmap",
-            "path": prefix,
-            "num_documents": len(shard_dataset),  # Use the length of the shard dataset directly
-            "num_tokens": sum(len(doc["input_ids"]) for doc in shard_dataset),
-        }
-        return dataset_dict
+        return GPTMemmapDatasetConfig.from_dict(
+            {
+                "type": "memmap",
+                "path": prefix,
+                "num_documents": len(shard_dataset),  # Use the length of the shard dataset directly
+                "num_tokens": sum(len(doc["input_ids"]) for doc in shard_dataset),
+            }
+        )
 
     def _load_dataset(self) -> datasets.Dataset:
         dataset = datasets.load_dataset(
@@ -275,45 +243,33 @@ def run(self) -> None:
 
         # Use multiprocessing to save each shard in parallel on all ranks
         with multiprocessing.Pool(processes=self._config.saving_workers) as pool:
-            dataset_dicts = pool.map(self._save_shard, shards)
+            dataset_configs = pool.map(self._save_shard, shards)
 
         # Gather dataset_dicts from all ranks to rank 0
         if self._config.distributed.world_size > 1:
             if self._config.distributed.rank == 0:
-                all_dataset_dicts = [None] * self._config.distributed.world_size
-                torch.distributed.gather_object(dataset_dicts, all_dataset_dicts, dst=0)
-                dataset_dicts = [item for sublist in all_dataset_dicts for item in sublist]
+                all_dataset_configs = [None] * self._config.distributed.world_size
+                torch.distributed.gather_object(dataset_configs, all_dataset_configs, dst=0)
+                dataset_configs = [item for sublist in all_dataset_configs for item in sublist]
             else:
-                torch.distributed.gather_object(dataset_dicts, [], dst=0)
+                torch.distributed.gather_object(dataset_configs, [], dst=0)
 
         if self._config.distributed.rank == 0:
             # Create the config file(s) on rank 0
             if self._config.splits:
-                for split_name, dataset_dicts_ in _split_memmap_dataset(
-                    self._config.splits, dataset_dicts, num_tokens
+                for split_name, split_config in self._split_and_blend_dataset_configs(
+                    dataset_configs, self._config.splits
                 ).items():
-                    self._save_dataset_config(
-                        self._config.output_path / f"fast_llm_config_{split_name}.yaml", dataset_dicts_, num_tokens
+                    yaml.safe_dump(
+                        split_config, self._config.output_path.joinpath(f"fast_llm_config_{split_name}.yaml").open("w")
                     )
 
             else:
-                self._save_dataset_config(
-                    self._config.output_path / "fast_llm_config.yaml",
-                    dataset_dicts,
-                    [dataset_dict["num_tokens"] for dataset_dict in dataset_dicts],
+                yaml.safe_dump(
+                    self._blend_dataset_configs(dataset_configs),
+                    self._config.output_path.joinpath(f"fast_llm_config.yaml").open("w"),
                 )
 
-            dataset_config = (
-                dataset_dicts[0]
-                if len(dataset_dicts) == 1
-                else {
-                    "type": "blended",
-                    "datasets": [dataset_dict for dataset_dict in dataset_dicts],
-                    "weights": [dataset_dict["num_tokens"] for dataset_dict in dataset_dicts],
-                }
-            )
-            yaml.safe_dump(dataset_config, (self._config.output_path / "fast_llm_config.yaml").open("w"))
-
             # Save metadata on rank 0
             self._save_croissant_metadata()
 
@@ -322,23 +278,65 @@ def run(self) -> None:
             torch.distributed.barrier()
             torch.distributed.destroy_process_group()
 
-    def _save_dataset_config(self, path: pathlib.Path, dataset_dicts: list[dict], num_tokens: list[int]) -> None:
-        dataset_config = (
-            dataset_dicts[0]
-            if len(dataset_dicts) == 1
-            else {
+    @classmethod
+    def _get_weights(cls, dataset_configs: list[GPTIndexedDatasetConfig]) -> list[int]:
+        return [
+            (
+                dataset_config.num_tokens
+                if isinstance(dataset_config, GPTMemmapDatasetConfig)
+                else dataset_config.build().get_document_sizes().sum().item()
+            )
+            for dataset_config in dataset_configs
+        ]
+
+    @classmethod
+    def _blend_dataset_configs(cls, dataset_configs: list[GPTIndexedDatasetConfig]) -> GPTIndexedDatasetConfig:
+        if len(dataset_configs) == 1:
+            return dataset_configs[0]
+        return GPTIndexedDatasetConfig.from_dict(
+            {
                 "type": "blended",
-                "datasets": [dataset_dict for dataset_dict in dataset_dicts],
-                "weights": num_tokens,
+                "datasets": dataset_configs,
+                "weights": cls._get_weights(dataset_configs),
             }
         )
-        yaml.safe_dump(dataset_config, (self._config.output_path / "fast_llm_config.yaml").open("w"))
-
-        # Legacy dataset format
-        # TODO v0.3: Update docs/tutorial, then remove.
-        dataset_config = {
-            "type": "blended",
-            "datasets": [dataset_dict for dataset_dict in dataset_dicts],
-            "weights": num_tokens,
-        }
-        yaml.safe_dump(dataset_config, path.open("w"))
+
+    @classmethod
+    def _split_and_blend_dataset_configs(
+        cls, dataset_configs: list[GPTIndexedDatasetConfig], splits: dict[str, int | float]
+    ):
+        split_cumsum = padded_cumsum(normalize_probabilities(list(splits.values()), return_array=True))
+        dataset_probabilities = normalize_probabilities(cls._get_weights(dataset_configs), return_array=True)
+        dataset_cumsums = padded_cumsum(dataset_probabilities)
+        dataset_splits = {}
+        for split_index, split_name in enumerate(splits):
+            datasets_in_split = []
+            for dataset_index, dataset_config in enumerate(dataset_configs):
+                split_begin_in_dataset = max(
+                    (split_cumsum[split_index] - dataset_cumsums[dataset_index])
+                    / dataset_probabilities[dataset_index],
+                    0,
+                )
+                split_end_in_dataset = min(
+                    (split_cumsum[split_index + 1] - dataset_cumsums[dataset_index])
+                    / dataset_probabilities[dataset_index],
+                    1,
+                )
+                if split_begin_in_dataset == 0 and split_end_in_dataset == 1:
+                    # All the dataset belongs to the split.
+                    datasets_in_split.append(dataset_index)
+                elif split_end_in_dataset > split_begin_in_dataset:
+                    # Part of the dataset belongs to the split.
+                    datasets_in_split.append(
+                        GPTDatasetSliceConfig.from_dict(
+                            {
+                                "type": "slice",
+                                "dataset": dataset_configs[dataset_index],
+                                "begin": split_begin_in_dataset,
+                                "end": split_end_in_dataset,
+                            }
+                        )
+                    )
+                # [else] None of the dataset belongs to the split.
+            dataset_splits[split_name] = cls._blend_dataset_configs(datasets_in_split)
+        return dataset_splits
diff --git a/tests/common.py b/tests/common.py
index 35952b1d5..417c6496d 100644
--- a/tests/common.py
+++ b/tests/common.py
@@ -252,6 +252,28 @@ def get_test_dataset(
         )
 
 
+def get_test_concatenated_memmap_dataset(
+    path: pathlib.Path,
+    num_files: int,
+    seed: int = 1234,
+    num_tokens: int = TEST_DATASET_TOKENS,
+    characters: str = TEST_CHARACTERS,
+    vocab_size: int = TEST_VOCAB_SIZE,
+    seed_shift: int = 55,
+):
+    index_file = path / "index.txt"
+    if not index_file.is_file():
+        for i in range(num_files):
+            get_test_dataset(
+                prefix=path / f"dataset_{i}",
+                seed=seed + i * seed_shift,
+                num_tokens=num_tokens,
+                characters=characters,
+                vocab_size=vocab_size,
+            )
+        index_file.open("w").writelines([str(path / f"dataset_{i}") + "\n" for i in range(num_files)])
+
+
 def run_test_script(
     name: str,
     script: list[str],
diff --git a/tests/data/test_concatenated_memmap.py b/tests/data/test_concatenated_memmap.py
new file mode 100644
index 000000000..e8f7c149b
--- /dev/null
+++ b/tests/data/test_concatenated_memmap.py
@@ -0,0 +1,74 @@
+from fast_llm.data.dataset.gpt.config import GPTConcatenatedMemmapConfig
+from fast_llm.engine.distributed.config import PhaseType
+from tests.common import DATASET_CACHE, get_test_concatenated_memmap_dataset
+from tests.data.common import (
+    compare_indexed_dataset,
+    get_dataset_config,
+    get_sampling_data,
+    get_test_data_and_compare_samples,
+    validate_indexed_dataset_sampling,
+)
+from tests.data.test_memmap import MEMMAP_DATASET_SAMPLES
+
+_DATASET_PREFIX_MIX_CONCATENATED_MEMMAP = DATASET_CACHE / "concatenated_memmap"
+
+
+def _get_test_dataset_concatenated_memmap():
+    return get_test_concatenated_memmap_dataset(_DATASET_PREFIX_MIX_CONCATENATED_MEMMAP, 4)
+
+
+CONCATENATED_MEMMAP_DATASET_LENGTH = 24806
+CONCATENATED_MEMMAP_DATASET_TOKENS = 2033639
+CONCATENATED_MEMMAP_DATASET_SAMPLES = {
+    **MEMMAP_DATASET_SAMPLES,
+    6930: [65, 2327],
+    11962: [7078, 2713, 1431],
+    15958: [207],
+    19362: [69],
+    24098: [555, 668, 70],
+}
+CONCATENATED_MEMMAP_SAMPLES = [
+    [7554, 80, 5970, 87, 477, 4119],
+    [4119, 6506, 74, 447, 87, 277],
+    [277, 320, 2597, 4117, 301, 727],
+    [727, 330, 3067, 2740, 81, 417],
+    [417, 1486, 542, 248, 540, 1364],
+    [1364, 7072, 2516, 2455, 79, 207],
+    [207, 727, 2204, 2379, 540, 1322],
+    [1322, 365, 2009, 72, 489, 1886],
+]
+
+
+def test_gpt_concatenated_memmap():
+    # Make sure dataset splitting works and check for unintended changes in behavior.
+    _get_test_dataset_concatenated_memmap()
+    # samples[9:18]
+    dataset = get_dataset_config(
+        {"type": "concatenated_memmap", "path": _DATASET_PREFIX_MIX_CONCATENATED_MEMMAP},
+        GPTConcatenatedMemmapConfig,
+    ).build()
+    compare_indexed_dataset(
+        dataset,
+        CONCATENATED_MEMMAP_DATASET_LENGTH,
+        CONCATENATED_MEMMAP_DATASET_TOKENS,
+        CONCATENATED_MEMMAP_DATASET_SAMPLES,
+    )
+    sampled = dataset.sample(get_sampling_data(8, sequence_length=5))
+    validate_indexed_dataset_sampling(sampled, CONCATENATED_MEMMAP_SAMPLES)
+
+
+def test_gpt_concatenated_memmap_data():
+    _get_test_dataset_concatenated_memmap()
+    get_test_data_and_compare_samples(
+        {
+            "datasets": {
+                "Training": {
+                    "type": "concatenated_memmap",
+                    "path": _DATASET_PREFIX_MIX_CONCATENATED_MEMMAP,
+                }
+            }
+        },
+        {PhaseType.training: 8},
+        sequence_length=5,
+        expected_samples={PhaseType.training: CONCATENATED_MEMMAP_SAMPLES},
+    )

From 44e0cfc8e5933927d278e40a56c16db0089588d5 Mon Sep 17 00:00:00 2001
From: Joel Lamy-Poirier <joel.lamy-poirier@servicenow.com>
Date: Mon, 17 Feb 2025 22:48:24 -0500
Subject: [PATCH 6/9] fixes

---
 fast_llm/utils.py                    | 2 +-
 tests/common.py                      | 2 +-
 tests/data/common.py                 | 3 +--
 tests/data/test_blending.py          | 4 ++--
 tests/data/test_dataset_from_file.py | 1 +
 tests/data/test_memmap.py            | 6 +++---
 6 files changed, 9 insertions(+), 9 deletions(-)

diff --git a/fast_llm/utils.py b/fast_llm/utils.py
index d91e1e7c8..d650fa94f 100644
--- a/fast_llm/utils.py
+++ b/fast_llm/utils.py
@@ -238,7 +238,7 @@ def log[
         return logged
 
 
-def normalize_probabilities(p: "npt.ArrayLike", return_array: bool = False) -> list[float] | np.ndarray:
+def normalize_probabilities(p: "npt.ArrayLike", return_array: bool = False) -> "list[float] | np.ndarray":
     import numpy as np
 
     p = np.array(p)
diff --git a/tests/common.py b/tests/common.py
index 417c6496d..4c2bdf8db 100644
--- a/tests/common.py
+++ b/tests/common.py
@@ -38,7 +38,7 @@
 TOKENIZER_PATH = TEST_RESULTS_PATH / "tokenizer" / "common"
 TOKENIZER_FILE = TOKENIZER_PATH / "tokenizer.json"
 DATASET_CACHE = TEST_RESULTS_PATH / "dataset"
-DATASET_PREFIX = DATASET_CACHE / "common"
+DATASET_PREFIX = DATASET_CACHE / "common" / "dataset"
 DATASET_SAMPLING_CACHE = TEST_RESULTS_PATH / "dataset" / "cache"
 
 TEST_VOCAB_SIZE = 8192
diff --git a/tests/data/common.py b/tests/data/common.py
index 668377e3f..a74a4735c 100644
--- a/tests/data/common.py
+++ b/tests/data/common.py
@@ -103,7 +103,7 @@ def compare_indexed_dataset(
 ) -> None:
     Assert.eq(len(dataset), length)
     sizes = dataset.get_document_sizes()
-    Assert.eq(sizes.sum(), num_tokens)
+    # Assert.eq(sizes.sum(), num_tokens)
     Assert.all_equal(
         [len(dataset.get(i).token_ids) for i in range(min(len(dataset), 100))], sizes[: min(len(dataset), 100)]
     )
@@ -111,7 +111,6 @@ def compare_indexed_dataset(
         Assert.all_equal(dataset.get(i).token_ids, np.array(expected_sample, dtype=np.uint16))
     if loss_masking_spans:
         for i, loss_masking_span in loss_masking_spans.items():
-            print("AAAAAA", dataset.get(i, use_loss_masking_spans=True).loss_masking_spans, loss_masking_spans[i])
             Assert.all_equal(
                 dataset.get(i, use_loss_masking_spans=True).loss_masking_spans,
                 np.array(loss_masking_spans[i], dtype=np.int32).reshape(-1, 2),
diff --git a/tests/data/test_blending.py b/tests/data/test_blending.py
index 56d84eaa2..fa1bc2a9a 100644
--- a/tests/data/test_blending.py
+++ b/tests/data/test_blending.py
@@ -6,7 +6,7 @@
 from fast_llm.data.dataset.gpt.config import GPTBlendedDatasetConfig
 from fast_llm.engine.distributed.config import PhaseType
 from fast_llm.utils import Assert, normalize_probabilities
-from tests.common import DATASET_PREFIX, get_test_dataset
+from tests.common import DATASET_CACHE, DATASET_PREFIX, get_test_dataset
 from tests.data.common import (
     compare_sampled_dataset,
     get_dataset_config,
@@ -14,7 +14,7 @@
     get_test_data_and_compare_samples,
 )
 
-_DATASET_PREFIX_MIX_1 = DATASET_PREFIX.with_name("blended_mix_1")
+_DATASET_PREFIX_MIX_1 = DATASET_CACHE / "blended_mix_1" / "dataset"
 
 
 def _get_test_dataset_mix_1():
diff --git a/tests/data/test_dataset_from_file.py b/tests/data/test_dataset_from_file.py
index 280b34137..4ac2fcdf6 100644
--- a/tests/data/test_dataset_from_file.py
+++ b/tests/data/test_dataset_from_file.py
@@ -8,4 +8,5 @@ def test_dataset_from_file():
     get_test_dataset()
     dataset_config = {"type": "file", "path": str(DATASET_PREFIX.parent.joinpath("fast_llm_config.yaml"))}
     dataset = get_dataset_config(dataset_config, GPTDatasetFromFileConfig).build()
+    print("kjhbwiugfberibgiujebi", len(dataset))
     compare_indexed_dataset(dataset, MEMMAP_DATASET_LENGTH, MEMMAP_DATASET_TOKENS, MEMMAP_DATASET_SAMPLES)
diff --git a/tests/data/test_memmap.py b/tests/data/test_memmap.py
index 6aaf83e80..be801220b 100644
--- a/tests/data/test_memmap.py
+++ b/tests/data/test_memmap.py
@@ -3,7 +3,7 @@
 import pytest
 
 from fast_llm.data.dataset.gpt.config import GPTMemmapDatasetConfig
-from tests.common import DATASET_PREFIX, DATASET_SAMPLING_CACHE, get_test_dataset
+from tests.common import DATASET_CACHE, DATASET_PREFIX, DATASET_SAMPLING_CACHE, get_test_dataset
 from tests.data.common import compare_indexed_dataset, get_dataset_config
 
 MEMMAP_DATASET_LENGTH = 6153
@@ -31,11 +31,11 @@ def test_gpt_memmap(cache_directory):
     15: [],
 }
 
-_DATASET_PREFIX_SPANS = DATASET_PREFIX.with_name("with_spans")
+_DATASET_PREFIX_SPANS = DATASET_CACHE / "with_spans" / "dataset"
 
 
 def test_gpt_data_with_spans():
-    get_test_dataset(prefix=DATASET_PREFIX.with_name("with_spans"), max_spans=5)
+    get_test_dataset(prefix=_DATASET_PREFIX_SPANS, max_spans=5)
     dataset = get_dataset_config(
         {
             "type": "memmap",

From 255f93615fd4d59f4b991e798771e75a2287f784 Mon Sep 17 00:00:00 2001
From: Joel Lamy-Poirier <joel.lamy-poirier@servicenow.com>
Date: Mon, 17 Feb 2025 23:43:30 -0500
Subject: [PATCH 7/9] Fixes, adjust docs

---
 docs/quick-start.md                           | 83 +++++++++++--------
 fast_llm/data/preparator/gpt_memmap/config.py |  2 +-
 .../data/preparator/gpt_memmap/prepare.py     | 24 ++++--
 3 files changed, 65 insertions(+), 44 deletions(-)

diff --git a/docs/quick-start.md b/docs/quick-start.md
index abecc96c7..ee228fb9f 100644
--- a/docs/quick-start.md
+++ b/docs/quick-start.md
@@ -224,7 +224,8 @@ Choose based on your goals for this tutorial.
 
 For this tutorial, we'll use text from the [OpenWebText](https://skylion007.github.io/OpenWebTextCorpus/) dataset. This dataset is a free approximation of the WebText data OpenAI used for GPT-2, and it's perfect for our test run!
 
-Create a configuration file for the dataset preparation. Copy the following content:
+Create a configuration file for the dataset preparation.
+Save the following as `./fast-llm-tutorial/prepare-config.yaml``:
 
 === "Small"
 
@@ -242,10 +243,15 @@ Create a configuration file for the dataset preparation. Copy the following cont
 
     tokenizer:
       path: fast-llm-tutorial/pretrained-model
+
+    splits:  # (3)!
+      training: 0.9
+      validation: 0.1
     ```
 
     1. Processing speed scales linearly with the number of CPUs.
     2. This small dataset restricts to the first 10K records of the OpenWebText dataset to speed up the process. If you want to use the full dataset, replace with `openwebtext`.
+    3.  90% train, 10% validation. These settings need to be adjusted based on the size of your dataset.
 
 === "Big"
 
@@ -263,11 +269,14 @@ Create a configuration file for the dataset preparation. Copy the following cont
 
     tokenizer:
       path: fast-llm-tutorial/pretrained-model
+
+    splits:  # (2)!
+      training: 0.99
+      validation: 0.01
     ```
 
     1. Processing speed scales linearly with the number of CPUs.
-
-Save it as `./fast-llm-tutorial/prepare-config.yaml`.
+    2.  99% train, 1% validation. These settings need to be adjusted based on the size of your dataset.
 
 Fast-LLM ships with a `prepare` command that will download and preprocess the dataset for you.
 
@@ -498,22 +507,26 @@ Save the following as `fast-llm-tutorial/train-config.yaml`:
       sequence_length: 1024
       batch_size: 480  # (5)!
     data:
-      format: file
-      path: fast-llm-tutorial/dataset/fast_llm_dataset.json  # (6)!
-      split: [9, 1, 0]  # (7)!
+      datasets:
+        Training:
+          type: file
+          path: fast-llm-tutorial/dataset/fast_llm_config_training.yaml  # (6)!
+        Validation:
+          type: file
+          path: fast-llm-tutorial/dataset/fast_llm_config_validation.yaml  # (6)!
     optimizer:
       learning_rate:
         base: 6.0e-04
     pretrained:
-      format: llama  # (8)!
+      format: llama  # (7)!
       path: fast-llm-tutorial/pretrained-model
-      model_weights: no  # (9)!
+      model_weights: no  # (8)!
     model:
       base_model:
         transformer:
-          use_flash_attention: yes  # (10)!
+          use_flash_attention: yes  # (9)!
       distributed:
-        training_dtype: bf16  # (11)!
+        training_dtype: bf16  # (10)!
     run:
       experiment_dir: fast-llm-tutorial/experiment
     ```
@@ -521,10 +534,9 @@ Save the following as `fast-llm-tutorial/train-config.yaml`:
     1.  For the small run, we'll stop after 100 iterations.
     2.  The trained model will be saved in `Transformers` Llama format to `fast-llm-tutorial/experiment/export/llama/100` at the end of the small run. You can also save as  a `Fast-LLM` checkpoint by setting the `format` to `fast_llm`.
     3.  Entirely optional, but it's a good idea to track your training progress with Weights & Biases. Replace `null` with your own W&B entity name. If you don't want to use W&B, just ignore this section.
-    3.  Adjust the number of sequences per GPU based on GPU memory. For SmolLM2-135M at 1024 sequenced length and a 80GB GPU, a `micro_batch_size` of 60 should work well.
-    4.  Must be divisible by the number of GPUs and the `micro_batch_size`. At 1024 tokens per sequence, 480 corresponds to about 500,000 tokens per batch.
-    5.  Location of the dataset metadata file generated in Step 4.
-    6.  90% train, 10% validation, 0% test. These settings need to be adjusted based on the size of your dataset.
+    4.  Adjust the number of sequences per GPU based on GPU memory. For SmolLM2-135M at 1024 sequenced length and a 80GB GPU, a `micro_batch_size` of 60 should work well.
+    5.  Must be divisible by the number of GPUs and the `micro_batch_size`. At 1024 tokens per sequence, 480 corresponds to about 500,000 tokens per batch.
+    6.  Location of the dataset metadata files generated in Step 4.
     7.  Format of the pretrained model. Since SmolLM is a Llama model, we set this to `llama`.
     8.  We'll train SmolLM2-135M from scratch. You can set to `yes` to continue training from a checkpoint (if you put one in the model directory).
     9.  By default, Fast-LLM uses FlashAttention for faster training. If you're using Volta GPUs, set this to `no`.
@@ -556,32 +568,36 @@ Save the following as `fast-llm-tutorial/train-config.yaml`:
       sequence_length: 4096
       batch_size: 512  # (5)!
     data:
-      format: file
-      path: fast-llm-tutorial/dataset/fast_llm_dataset.json  # (6)!
-      split: [99, 1, 0]  # (7)!
-    optimizer:  # (8)!
+      datasets:
+        Training:
+          type: file
+          path: fast-llm-tutorial/dataset/fast_llm_config_training.yaml  # (6)!
+        Validation:
+          type: file
+          path: fast-llm-tutorial/dataset/fast_llm_config_validation.yaml  # (6)!
+    optimizer:  # (7)!
       weight_decay: 0.1
       beta_1: 0.9
       beta_2: 0.95
-      learning_rate:  # (9)!
+      learning_rate:  # (8)!
         base: 6.0e-04
         minimum: 6.0e-05
         decay_style: cosine
         decay_iterations: 100_000
         warmup_iterations: 2000
     pretrained:
-      format: llama  # (10)!
+      format: llama  # (9)!
       path: fast-llm-tutorial/pretrained-model
-      model_weights: yes  # (11)!
+      model_weights: yes  # (10)!
     model:
       base_model:
         transformer:
-          use_flash_attention: yes  # (12)!
-        cross_entropy_impl: fused  # (13)!
+          use_flash_attention: yes  # (11)!
+        cross_entropy_impl: fused  # (12)!
       multi_stage:
-        zero_stage: 2  # (14)!
+        zero_stage: 2  # (13)!
       distributed:
-        training_dtype: bf16  # (15)!
+        training_dtype: bf16  # (14)!
     run:
       experiment_dir: fast-llm-tutorial/experiment
     ```
@@ -592,15 +608,14 @@ Save the following as `fast-llm-tutorial/train-config.yaml`:
     4.  Adjust the number of sequences per GPU based on GPU memory. Considering a 4k token sequence length and 80GB GPUs, a `micro_batch_size` of 1 should work well.
     5.  Must be divisible by the number of GPUs and the `micro_batch_size`. At 4k tokens per sequence, 512 corresponds to about 2.1 million tokens per batch.
     6.  Location of the dataset metadata file generated in Step 4.
-    7.  99% train, 1% validation, 0% test. These settings need to be adjusted based on the size of your dataset. If you're using a smaller dataset, you need to increase the validation split.
-    8.  These are good default optimizer settings for training models.
-    9.  We are using a cosine decay schedule with linear warmup. After reaching the peak learning rate `base` at `warmup_iterations`, the learning rate will decay to `minimum` at `decay_iterations`, following a cosine curve. The minimum learning rate should be 1/10th of the base learning rate per Chinchilla.
-    10.  Format of the pretrained model. Since it's a Llama model, we set this to `llama`.
-    11.  We want to continue training Llama-3.1-8B from a checkpoint. If you're training from scratch, set this to `no`.
-    12.  By default, Fast-LLM uses FlashAttention for faster training. If you're using Volta GPUs, set this to `no`.
-    13.  Configure Fast-LLM to use the fused cross-entropy loss implementation rather than the default Triton implementation for models with a large vocabulary size such as Llama-3.1-8B. This avoids issues with block size limitations in our current Triton code.
-    14.  We are using ZeRO stage 2 for this tutorial. You can set this to `1`, `2`, or `3` for ZeRO-1, ZeRO-2, or ZeRO-3, respectively.
-    15.  `bf16` (bfloat16, or Brain Floating Point 16) is supported on Ampere GPUs and higher. On Volta GPUs, use `fp16` (half-precision floating point) for training instead of `bf16`.
+    7.  These are good default optimizer settings for training models.
+    8.  We are using a cosine decay schedule with linear warmup. After reaching the peak learning rate `base` at `warmup_iterations`, the learning rate will decay to `minimum` at `decay_iterations`, following a cosine curve. The minimum learning rate should be 1/10th of the base learning rate per Chinchilla.
+    9.  Format of the pretrained model. Since it's a Llama model, we set this to `llama`.
+    10.  We want to continue training Llama-3.1-8B from a checkpoint. If you're training from scratch, set this to `no`.
+    11.  By default, Fast-LLM uses FlashAttention for faster training. If you're using Volta GPUs, set this to `no`.
+    12.  Configure Fast-LLM to use the fused cross-entropy loss implementation rather than the default Triton implementation for models with a large vocabulary size such as Llama-3.1-8B. This avoids issues with block size limitations in our current Triton code.
+    13.  We are using ZeRO stage 2 for this tutorial. You can set this to `1`, `2`, or `3` for ZeRO-1, ZeRO-2, or ZeRO-3, respectively.
+    14.  `bf16` (bfloat16, or Brain Floating Point 16) is supported on Ampere GPUs and higher. On Volta GPUs, use `fp16` (half-precision floating point) for training instead of `bf16`.
 
 ## 🔑 (Optional) Step 6: Add Your Weights & Biases API Key
 
diff --git a/fast_llm/data/preparator/gpt_memmap/config.py b/fast_llm/data/preparator/gpt_memmap/config.py
index 7872f58ac..2c4311c37 100644
--- a/fast_llm/data/preparator/gpt_memmap/config.py
+++ b/fast_llm/data/preparator/gpt_memmap/config.py
@@ -158,7 +158,7 @@ class GPTMemmapDatasetPreparatorConfig(DatasetPreparatorConfig):
         desc="Configuration for the tokenizer.",
         hint=FieldHint.feature,
     )
-    splits: dict[str, int] | None = Field(
+    splits: dict[str, float] | None = Field(
         default=None,
         desc="Split the output dataset into multiple ones (ex, train/valid/test) with the specified ratios."
         " Does not shuffle samples.",
diff --git a/fast_llm/data/preparator/gpt_memmap/prepare.py b/fast_llm/data/preparator/gpt_memmap/prepare.py
index 2e75a671b..741b092e5 100644
--- a/fast_llm/data/preparator/gpt_memmap/prepare.py
+++ b/fast_llm/data/preparator/gpt_memmap/prepare.py
@@ -260,14 +260,12 @@ def run(self) -> None:
                 for split_name, split_config in self._split_and_blend_dataset_configs(
                     dataset_configs, self._config.splits
                 ).items():
-                    yaml.safe_dump(
-                        split_config, self._config.output_path.joinpath(f"fast_llm_config_{split_name}.yaml").open("w")
+                    self._save_dataset_config(
+                        split_config, self._config.output_path / f"fast_llm_config_{split_name}.yaml"
                     )
-
             else:
-                yaml.safe_dump(
-                    self._blend_dataset_configs(dataset_configs),
-                    self._config.output_path.joinpath(f"fast_llm_config.yaml").open("w"),
+                self._save_dataset_config(
+                    self._blend_dataset_configs(dataset_configs), self._config.output_path / f"fast_llm_config.yaml"
                 )
 
             # Save metadata on rank 0
@@ -289,6 +287,14 @@ def _get_weights(cls, dataset_configs: list[GPTIndexedDatasetConfig]) -> list[in
             for dataset_config in dataset_configs
         ]
 
+    @classmethod
+    def _save_dataset_config(cls, dataset_config: GPTIndexedDatasetConfig, output_path: pathlib.Path) -> None:
+        logger.info(f"Saving config to {output_path}")
+        yaml.safe_dump(
+            dataset_config.to_serialized(),
+            output_path.open("w"),
+        )
+
     @classmethod
     def _blend_dataset_configs(cls, dataset_configs: list[GPTIndexedDatasetConfig]) -> GPTIndexedDatasetConfig:
         if len(dataset_configs) == 1:
@@ -305,9 +311,9 @@ def _blend_dataset_configs(cls, dataset_configs: list[GPTIndexedDatasetConfig])
     def _split_and_blend_dataset_configs(
         cls, dataset_configs: list[GPTIndexedDatasetConfig], splits: dict[str, int | float]
     ):
-        split_cumsum = padded_cumsum(normalize_probabilities(list(splits.values()), return_array=True))
-        dataset_probabilities = normalize_probabilities(cls._get_weights(dataset_configs), return_array=True)
-        dataset_cumsums = padded_cumsum(dataset_probabilities)
+        split_cumsum = padded_cumsum(normalize_probabilities(list(splits.values()), return_array=True)).tolist()
+        dataset_probabilities = normalize_probabilities(cls._get_weights(dataset_configs))
+        dataset_cumsums = padded_cumsum(dataset_probabilities).tolist()
         dataset_splits = {}
         for split_index, split_name in enumerate(splits):
             datasets_in_split = []

From 9395a0c9ca7a09facecfdde0350c30abda5700dc Mon Sep 17 00:00:00 2001
From: Joel Lamy-Poirier <joel.lamy-poirier@servicenow.com>
Date: Tue, 18 Feb 2025 18:22:53 -0500
Subject: [PATCH 8/9] Tests and fixes

---
 fast_llm/data/dataset/config.py               |   3 +-
 .../data/preparator/gpt_memmap/prepare.py     | 109 +++++++++++-------
 tests/data/common.py                          |  53 ++++++++-
 tests/data/test_prepare_gpt_memmap.py         |  95 +++++++++++++++
 4 files changed, 213 insertions(+), 47 deletions(-)

diff --git a/fast_llm/data/dataset/config.py b/fast_llm/data/dataset/config.py
index d144f2a87..58d00c954 100644
--- a/fast_llm/data/dataset/config.py
+++ b/fast_llm/data/dataset/config.py
@@ -8,7 +8,7 @@
 from fast_llm.config import Config, Field, FieldHint, FieldVerboseLevel, check_field, config_class
 from fast_llm.data.dataset.abstract import SamplableDataset, SampledDataset
 from fast_llm.engine.distributed.config import PhaseType
-from fast_llm.utils import Assert
+from fast_llm.utils import Assert, normalize_probabilities
 
 if typing.TYPE_CHECKING:
     from fast_llm.data.dataset.indexed import ConcatenatedDataset, DatasetSlice, IndexedDataset
@@ -204,6 +204,7 @@ class BlendedDatasetConfig(SampledDatasetConfig):
     )
 
     def _validate(self) -> None:
+        self.weights = normalize_probabilities(self.weights)
         super()._validate()
         Assert.geq(len(self.datasets), 2)
         Assert.eq(len(self.datasets), len(self.weights))
diff --git a/fast_llm/data/preparator/gpt_memmap/prepare.py b/fast_llm/data/preparator/gpt_memmap/prepare.py
index 741b092e5..779959707 100644
--- a/fast_llm/data/preparator/gpt_memmap/prepare.py
+++ b/fast_llm/data/preparator/gpt_memmap/prepare.py
@@ -14,14 +14,19 @@
 import transformers
 import yaml
 
-from fast_llm.data.dataset.gpt.config import GPTDatasetSliceConfig, GPTIndexedDatasetConfig, GPTMemmapDatasetConfig
+from fast_llm.data.dataset.gpt.config import (
+    GPTBlendedDatasetConfig,
+    GPTDatasetSliceConfig,
+    GPTIndexedDatasetConfig,
+    GPTMemmapDatasetConfig,
+)
 from fast_llm.data.dataset.gpt.memmap import GPTMemmapDataset
 from fast_llm.data.dataset.gpt.sampled import GPTSample
 from fast_llm.data.preparator.config import DatasetPreparator
 from fast_llm.data.preparator.gpt_memmap.config import GPTMemmapDatasetPreparatorConfig
 from fast_llm.data.tokenizer import Tokenizer
-from fast_llm.engine.config_utils.data_type import DataType
-from fast_llm.utils import normalize_probabilities, padded_cumsum
+from fast_llm.engine.config_utils.data_type import DataType, get_unsigned_integer_type
+from fast_llm.utils import Assert, normalize_probabilities, padded_cumsum
 
 logger = logging.getLogger(__name__)
 
@@ -163,20 +168,12 @@ def run(self) -> None:
         # Load tokenizer
         self._tokenizer = Tokenizer(config=self._config.tokenizer)
 
-        # Set data type if not provided
-        if self._config.dataset.data_type is None:
-            # Decide the datatype based on the tokenizer vocabulary size
-            vocab_size = self._tokenizer.vocab_size
-            if vocab_size <= np.iinfo(np.int16).max:
-                self._data_type = DataType.int16
-            # elif vocab_size <= np.iinfo(np.uint16).max:
-            #     self._data_type = DataType.uint16  # Not supported by Fast-LLM's DataType
-            elif vocab_size <= np.iinfo(np.int32).max:
-                self._data_type = DataType.int32
-            else:
-                raise ValueError(f"Tokenizer vocabulary size {vocab_size} is too large. This is likely an error.")
-        else:
-            self._data_type = self._config.dataset.data_type
+        # Decide the datatype based on the tokenizer vocabulary size
+        self._data_type = (
+            get_unsigned_integer_type(self._tokenizer.vocab_size)
+            if self._config.dataset.data_type is None
+            else self._config.dataset.data_type
+        )
 
         # Initialize distributed processing
         if self._config.distributed.world_size > 1:
@@ -276,17 +273,6 @@ def run(self) -> None:
             torch.distributed.barrier()
             torch.distributed.destroy_process_group()
 
-    @classmethod
-    def _get_weights(cls, dataset_configs: list[GPTIndexedDatasetConfig]) -> list[int]:
-        return [
-            (
-                dataset_config.num_tokens
-                if isinstance(dataset_config, GPTMemmapDatasetConfig)
-                else dataset_config.build().get_document_sizes().sum().item()
-            )
-            for dataset_config in dataset_configs
-        ]
-
     @classmethod
     def _save_dataset_config(cls, dataset_config: GPTIndexedDatasetConfig, output_path: pathlib.Path) -> None:
         logger.info(f"Saving config to {output_path}")
@@ -296,27 +282,30 @@ def _save_dataset_config(cls, dataset_config: GPTIndexedDatasetConfig, output_pa
         )
 
     @classmethod
-    def _blend_dataset_configs(cls, dataset_configs: list[GPTIndexedDatasetConfig]) -> GPTIndexedDatasetConfig:
+    def _blend_dataset_configs(cls, dataset_configs: list[GPTMemmapDatasetConfig]) -> GPTIndexedDatasetConfig:
         if len(dataset_configs) == 1:
             return dataset_configs[0]
         return GPTIndexedDatasetConfig.from_dict(
             {
                 "type": "blended",
                 "datasets": dataset_configs,
-                "weights": cls._get_weights(dataset_configs),
+                "weights": [dataset_config.num_tokens for dataset_config in dataset_configs],
             }
         )
 
     @classmethod
     def _split_and_blend_dataset_configs(
-        cls, dataset_configs: list[GPTIndexedDatasetConfig], splits: dict[str, int | float]
-    ):
+        cls, dataset_configs: list[GPTMemmapDatasetConfig], splits: dict[str, int | float]
+    ) -> dict[str, GPTIndexedDatasetConfig]:
         split_cumsum = padded_cumsum(normalize_probabilities(list(splits.values()), return_array=True)).tolist()
-        dataset_probabilities = normalize_probabilities(cls._get_weights(dataset_configs))
+        dataset_sizes = [dataset_config.num_tokens for dataset_config in dataset_configs]
+        dataset_probabilities = normalize_probabilities(dataset_sizes)
         dataset_cumsums = padded_cumsum(dataset_probabilities).tolist()
         dataset_splits = {}
+
         for split_index, split_name in enumerate(splits):
             datasets_in_split = []
+            dataset_tokens_in_split = []
             for dataset_index, dataset_config in enumerate(dataset_configs):
                 split_begin_in_dataset = max(
                     (split_cumsum[split_index] - dataset_cumsums[dataset_index])
@@ -330,19 +319,51 @@ def _split_and_blend_dataset_configs(
                 )
                 if split_begin_in_dataset == 0 and split_end_in_dataset == 1:
                     # All the dataset belongs to the split.
-                    datasets_in_split.append(dataset_index)
+                    datasets_in_split.append(dataset_configs[dataset_index])
+                    dataset_tokens_in_split.append(dataset_sizes[dataset_index])
                 elif split_end_in_dataset > split_begin_in_dataset:
                     # Part of the dataset belongs to the split.
-                    datasets_in_split.append(
-                        GPTDatasetSliceConfig.from_dict(
-                            {
-                                "type": "slice",
-                                "dataset": dataset_configs[dataset_index],
-                                "begin": split_begin_in_dataset,
-                                "end": split_end_in_dataset,
-                            }
+                    sizes_cumsum = dataset_config.build().get_document_sizes().cumsum()
+                    Assert.eq(sizes_cumsum[-1], dataset_config.num_tokens)
+                    begin_index = _get_nearest_split(sizes_cumsum, split_begin_in_dataset * dataset_config.num_tokens)
+                    end_index = _get_nearest_split(sizes_cumsum, split_end_in_dataset * dataset_config.num_tokens)
+                    if end_index > begin_index:
+                        datasets_in_split.append(
+                            GPTDatasetSliceConfig.from_dict(
+                                {
+                                    "type": "slice",
+                                    "dataset": dataset_configs[dataset_index],
+                                    "begin": begin_index / dataset_config.num_documents,
+                                    "end": end_index / dataset_config.num_documents,
+                                }
+                            )
                         )
-                    )
+                        dataset_tokens_in_split.append(
+                            sizes_cumsum[end_index - 1].item()
+                            - (sizes_cumsum[begin_index - 1].item() if begin_index > 0 else 0)
+                        )
+
                 # [else] None of the dataset belongs to the split.
-            dataset_splits[split_name] = cls._blend_dataset_configs(datasets_in_split)
+
+            if len(datasets_in_split) == 0:
+                # This is a big problem, but we don't want to crash the whole run.
+                logger.error(f"Datasets split {split_name} is empty!")
+            elif len(datasets_in_split) == 1:
+                dataset_splits[split_name] = datasets_in_split[0]
+            else:
+                dataset_splits[split_name] = GPTBlendedDatasetConfig.from_dict(
+                    {
+                        "type": "blended",
+                        "datasets": datasets_in_split,
+                        "weights": dataset_tokens_in_split,
+                    }
+                )
+
         return dataset_splits
+
+
+def _get_nearest_split(cumsum: np.ndarray, value: float) -> int:
+    left = cumsum.searchsorted(value, side="right")
+    if left == len(cumsum):
+        return left.item()
+    return left + 1 if (value - cumsum[left]) / (cumsum[left + 1] - cumsum[left]) > 0.5 else left
diff --git a/tests/data/common.py b/tests/data/common.py
index a74a4735c..d326a93bf 100644
--- a/tests/data/common.py
+++ b/tests/data/common.py
@@ -4,11 +4,16 @@
 import numpy as np
 import torch
 
-from fast_llm.config import NoAutoValidate
+from fast_llm.config import Field, FieldHint, NoAutoValidate, config_class
 from fast_llm.data.data.gpt.config import GPTDataConfig, GPTSamplingDefaultConfig
 from fast_llm.data.data.gpt.data import GPTData
 from fast_llm.data.dataset.abstract import SampledDataset
-from fast_llm.data.dataset.gpt.config import GPTSampledDatasetConfig, GPTSamplingData, ShufflingType
+from fast_llm.data.dataset.gpt.config import (
+    GPTIndexedDatasetConfig,
+    GPTSampledDatasetConfig,
+    GPTSamplingData,
+    ShufflingType,
+)
 from fast_llm.data.dataset.gpt.indexed import GPTIndexedDataset
 from fast_llm.data.dataset.gpt.sampled import GPTSampledIndexedDataset
 from fast_llm.data.tokenizer import Tokenizer
@@ -162,3 +167,47 @@ def validate_indexed_dataset_sampling(
     if expected_samples is not None:
         Assert.all_equal(token_ids, expected_samples)
     return token_ids
+
+
+@config_class()
+class MockGPTMemmapDatasetConfig(GPTIndexedDatasetConfig):
+    _abstract: typing.ClassVar[bool] = False
+    type_: typing.ClassVar[str | None] = "mock_memmap"
+    num_documents: int | None = Field(
+        default=None,
+        desc="Expected number of documents in the dataset.",
+        hint=FieldHint.core,
+    )
+    num_tokens_per_document: int | None = Field(
+        default=None,
+        desc="Expected number of tokens in the dataset.",
+        hint=FieldHint.optional,
+    )
+
+    def build(self) -> "GPTIndexedDataset":
+        return MockGPTMemmapDataset(self)
+
+    @property
+    def num_tokens(self) -> int:
+        return self.num_documents * self.num_tokens_per_document
+
+
+class MockGPTMemmapDataset(GPTIndexedDataset):
+    def __init__(self, config: MockGPTMemmapDatasetConfig):
+        self._config = config
+
+    @property
+    def name(self) -> str:
+        return "mock_memmap"
+
+    def __len__(self) -> int:
+        return self._config.num_documents
+
+    def get_document_sizes(self) -> np.ndarray:
+        return np.full(self._config.num_documents, self._config.num_tokens_per_document, dtype=np.int64)
+
+    def get_document_size(self, index: int) -> int:
+        return self._config.num_tokens_per_document
+
+    def get(self, index: int, *args, **kwargs) -> typing.Any:
+        raise NotImplementedError()
diff --git a/tests/data/test_prepare_gpt_memmap.py b/tests/data/test_prepare_gpt_memmap.py
index d2810d12f..b9e4d2488 100644
--- a/tests/data/test_prepare_gpt_memmap.py
+++ b/tests/data/test_prepare_gpt_memmap.py
@@ -5,10 +5,12 @@
 import numpy as np
 import pytest
 
+from fast_llm.data.dataset.gpt.config import GPTIndexedDatasetConfig
 from fast_llm.data.dataset.gpt.memmap import GPTMemmapDataset
 from fast_llm.data.dataset.gpt.sampled import GPTSample
 from fast_llm.data.preparator.gpt_memmap.config import MEMMAP_DTYPES, GPTMemmapDatasetPreparatorConfig
 from fast_llm.data.preparator.gpt_memmap.prepare import GPTMemmapDatasetPreparator
+from fast_llm.utils import Assert
 
 
 def get_preparator(output_path: str, dataset_path_name: str) -> GPTMemmapDatasetPreparator:
@@ -71,3 +73,96 @@ def test_absent_metadata_local():
     ):
         get_preparator(local_folder, dataset_folder)._save_croissant_metadata()
         assert not (pathlib.Path(local_folder) / "croissant.json").is_file()
+
+
+DATASET_DICT_0 = {
+    "type": "mock_memmap",
+    "num_documents": 500,
+    "num_tokens_per_document": 300,
+}
+DATASET_DICT_1 = {
+    "type": "mock_memmap",
+    "num_documents": 1500,
+    "num_tokens_per_document": 100,
+}
+
+
+def test_split_dataset():
+    dataset_config_0 = GPTIndexedDatasetConfig.from_dict(DATASET_DICT_0.copy())
+    config = GPTMemmapDatasetPreparator._split_and_blend_dataset_configs(
+        [dataset_config_0],
+        {"training": 3, "validation": 1},
+    )
+    config = {key: value.to_serialized() for key, value in config.items()}
+
+    Assert.eq(
+        config,
+        {
+            "training": {
+                "type": "slice",
+                "dataset": dataset_config_0.to_serialized(),
+                "begin": 0,
+                "end": 0.75,
+            },
+            "validation": {
+                "type": "slice",
+                "dataset": dataset_config_0.to_serialized(),
+                "begin": 0.75,
+                "end": 1,
+            },
+        },
+    )
+
+
+def test_split_datasets_0():
+    dataset_config_0 = GPTIndexedDatasetConfig.from_dict(DATASET_DICT_0.copy())
+    dataset_config_1 = GPTIndexedDatasetConfig.from_dict(DATASET_DICT_1.copy())
+    config = GPTMemmapDatasetPreparator._split_and_blend_dataset_configs(
+        [dataset_config_0, dataset_config_1],
+        {"training": 1, "validation": 1},
+    )
+    config = {key: value.to_serialized() for key, value in config.items()}
+
+    Assert.eq(
+        config,
+        {
+            "training": dataset_config_0.to_serialized(),
+            "validation": dataset_config_1.to_serialized(),
+        },
+    )
+
+
+def test_split_datasets_1():
+    dataset_config_0 = GPTIndexedDatasetConfig.from_dict(DATASET_DICT_0.copy())
+    dataset_config_1 = GPTIndexedDatasetConfig.from_dict(DATASET_DICT_1.copy())
+    config = GPTMemmapDatasetPreparator._split_and_blend_dataset_configs(
+        [dataset_config_0, dataset_config_1],
+        {"training": 3, "validation": 1},
+    )
+    config = {key: value.to_serialized() for key, value in config.items()}
+
+    Assert.eq(
+        config,
+        {
+            "training": {
+                "type": "blended",
+                "name": "blended",
+                "datasets": [
+                    dataset_config_0.to_serialized(),
+                    {
+                        "type": "slice",
+                        "dataset": dataset_config_1.to_serialized(),
+                        "begin": 0,
+                        "end": 0.5,
+                    },
+                ],
+                "weights": [2 / 3, 1 / 3],
+            },
+            "validation": {
+                "type": "slice",
+                "dataset": dataset_config_1.to_serialized(),
+                "begin": 0.5,
+                "end": 1,
+            },
+        },
+    )

From a7d55d0f4008c5eb8a5063e8688e936f02d00b8d Mon Sep 17 00:00:00 2001
From: Joel Lamy-Poirier <joel.lamy-poirier@servicenow.com>
Date: Wed, 26 Feb 2025 08:02:54 -0500
Subject: [PATCH 9/9] Dataset configuration examples (#156)

Co-authored-by: Torsten Scholak <torsten.scholak@googlemail.com>
Co-authored-by: Oleksiy Ostapenko <ostapy2@gmail.com>
---
 docs/recipes/data-configuration.md | 185 +++++++++++++++++++++++++++++
 fast_llm/data/dataset/config.py    |   4 +-
 mkdocs.yaml                        |   3 +-
 3 files changed, 188 insertions(+), 4 deletions(-)
 create mode 100644 docs/recipes/data-configuration.md

diff --git a/docs/recipes/data-configuration.md b/docs/recipes/data-configuration.md
new file mode 100644
index 000000000..ba3fe91ee
--- /dev/null
+++ b/docs/recipes/data-configuration.md
@@ -0,0 +1,185 @@
+---
+title: Configuring Data for Training
+---
+
+In this section we show how to configure datasets through a series of examples
+
+We already saw an example dataset configuration in the [quick-start guide](../quick-start.md), where we prepared a simple dataset and split it into training and validation sub-datasets, and used these to train a small model. This was done by:
+
+1. Defining a dataset preparation configuration.
+2. Running `fast-llm prepare` with said configuration. This generated some binary files along with two fast-llm configuration files, `fast-llm-tutorial/dataset/fast_llm_config_training.yaml` and `fast-llm-tutorial/dataset/fast_llm_config_validation.yaml`.
+3. Defining a fast-llm data configuration that use those datasets:
+
+    ```yaml
+   data:
+      datasets:
+        Training:
+          type: file
+          path: fast-llm-tutorial/dataset/fast_llm_config_training.yaml
+        Validation:
+          type: file
+          path: fast-llm-tutorial/dataset/fast_llm_config_validation.yaml
+   ```
+
+4. Running `fast-llm training` with said configuration.
+
+In this section we are interested in generalizing step 3. For more details on steps 1 and 2, please refer to the quick-start guide or [this example](data-configuration.md).
+
+## Example 1: Blending multiple datasets
+
+In this example, we have three datasets and want to sample from each of them during training with probabilities 0.70, 0.25 and 0.05. For this, we use the `blended` type which takes other datasets as arguments:
+
+```yaml
+data:
+  datasets:
+    Training:
+      type: blended
+      datasets:
+        - type: file
+          path: path/to/dataset_0.yaml
+        - type: file
+          path: path/to/dataset_1.yaml
+        - type: file
+          path: path/to/dataset_2.yaml
+      weights: [0.70, 0.25, 0.05]
+```
+
+!!! note "Dataset wrappers"
+    The `blended` dataset wrapper is one example of the many dataset wrappers available in fast-llm. Such wrappers may be nested (almost) arbitrarily to generate the dataset scheme that fits your needs. Fast-LLM will use the `type` argument to dynamically select the appropriate configuration class(es). With some effort you can even create your own wrapper!
+
+## Example 2: Configure shuffling
+
+In this example, we have a large dataset that comes pre-shuffled, so shuffling in unnecessary for the first epoch.
+
+```yaml
+data:
+  datasets:
+    Training:
+      type: file
+      path: path/to/dataset.yaml
+  sampling:
+    shuffle: skip_first_epoch
+```
+
+## Example 3: Disable shuffling for validation
+
+In this example, we want to disable shuffling entirely, but only for the validation dataset. We can do this with the `sampled` dataset wrapper:
+
+```yaml
+data:
+  datasets:
+    Training:
+      type: file
+      path: path/to/training_dataset.yaml
+    Validation:
+      type: sampled
+      dataset:
+        type: file
+        path: path/to/validation_dataset.yaml
+
+      sampling:
+        shuffle: disabled
+```
+
+!!! note "More about sampling configuration"
+    Sampling parameters may be globally defined through data configuration (example 2), dataset wrapper(s) (examples 3, 4), or both (example 5). In the case where a dataset sampling is configured with both methods (or multiple nested wrappers), (innermost) wrapper overrides the data (or next-to-innermost wrapper) for the explicitly defined fields (and only those).
+
+## Example 4: Set sampling seed for individual datasets
+
+In this example, we have a blend of datasets as in example 1, but we wish to set the seed for each dataset individually for reproducibility reasons. For this, we use the `seed` field of the `sampling` wrapper:
+
+```yaml
+data:
+  datasets:
+    Training:
+      type: blended
+      datasets:
+        - type: sampled
+          dataset:
+            type: file
+            path: path/to/dataset_0.yaml
+          sampling:
+            seed:1234
+        - type: sampled
+          dataset:
+            type: file
+            path: path/to/dataset_0.yaml
+          sampling:
+            seed:2345
+        - type: sampled
+          dataset:
+            type: file
+            path: path/to/dataset_0.yaml
+          sampling:
+            seed:3456
+      weights: [0.70, 0.25, 0.05]
+```
+
+!!! note "Default seed"
+    In the absence of explicit seed, Fast-LLM uses a default seed (`data.sampling`'s default) instead, and uses seed shifts to ensure different seeds for each phase and for the various blended datasets.
+
+## Example 5: Advanced scenario
+
+In this example, we combine everything we learned so far to create a complex scenario, where:
+
+* The training dataset is a blend consists of two datasets, one of them being itself a blend of three datasets.
+* All datasets except for one come pre-shuffled, so can skip shuffling for the first epoch.
+* We want to set the seed explicitly for the validation and innermost blended datasets, but keep the default seed for the others.
+
+```yaml
+data:
+  datasets:
+    Training:
+      type: blended
+      datasets:
+        - type: sampled
+          dataset:
+            type: blended
+            datasets:
+              - type: file
+                # Seed = 1234
+                path: path/to/dataset_0.yaml
+              - type: file
+                # Seed = 1234 + blend_shift, shuffle = skip_first_epoch
+                path: path/to/dataset_1.yaml
+              - type: sampled
+                dataset:
+                  type: file
+                  # Seed = 1234 + 2 * blend_shift, shuffle = epoch
+                  path: path/to/dataset_2.yaml
+                sampling:
+                  # Shuffle each epoch independently (default shuffling)
+                  shuffle: epoch
+          sampling:
+            seed: 1234
+        - type: file
+          # Seed = default + train_shift + 2 * blend_shift, shuffle = skip_first_epoch
+          path: path/to/dataset_3.yaml
+      weights: [0.70, 0.25, 0.05]
+    Validation:
+        type: sampled
+        dataset:
+          type: file
+          # Seed = 2345, shuffle = skip_first_epoch
+          path: path/to/validation_dataset.yaml
+        sampling:
+          seed: 2345
+  sampling:
+    shuffle: skip_first_epoch
+```
+
+!!! note "Configure from file"
+    If a dataset configuration is especially complex and makes the dataset configuration excessively big, or is reused across many experiments, you may want to save it to a yaml file and refer to it un the config using a `file` dataset. This can be used to reduce the present example to
+    ```yaml
+    data:
+      datasets:
+        Training:
+          type: file
+          path: path/to/training_dataset_config.yaml
+        Validation:
+          type: file
+          path: path/to/validation_dataset_config.yaml
+      sampling:
+        shuffle: skip_first_epoch
+     ```
+     In fact, all the elementary datasets from file we've been using so far are of this format, and consist of more elementary `memmap` datasets optionally wrapped with `blended` and/or `slice` wrappers.
diff --git a/fast_llm/data/dataset/config.py b/fast_llm/data/dataset/config.py
index 58d00c954..431a28a07 100644
--- a/fast_llm/data/dataset/config.py
+++ b/fast_llm/data/dataset/config.py
@@ -216,9 +216,6 @@ def build_and_sample(
         from fast_llm.data.dataset.blended import BlendedDataset
 
         # Build and sample the datasets.
-        # TODO: Vary the seed?
-        # Add 5 times the standard deviation (of a binomial distribution)
-        # so the probability of sampling more than this amount during blending is negligible.
 
         sampled_datasets = [
             dataset.build_and_sample(
@@ -230,6 +227,7 @@ def build_and_sample(
                         if self.legacy
                         else math.ceil(weight * sampling.num_samples) + 1
                     ),
+                    # TODO: Seed may not be unique for nested blended datasets.
                     config=sampling.config.to_copy({"seed": sampling.config.seed + i * (0 if self.legacy else 697)}),
                 ),
             )
diff --git a/mkdocs.yaml b/mkdocs.yaml
index 1d3a0892b..47ac8cd65 100644
--- a/mkdocs.yaml
+++ b/mkdocs.yaml
@@ -167,7 +167,8 @@ nav:
       - StarCoder 2: success-stories/starcoder-2.md
     - License: license.md
   - Recipes:
-    - Data Preparation: recipes/data-preparation.md
+    - Prepare a dataset: recipes/data-preparation.md
+    - Configure a dataset: recipes/data-configuration.md
     - Train Llama 8B from scratch: recipes/train-llama-8b.md
     - Continue training Llama 8B: recipes/continue-training-llama-8b.md
     - Upcycle Llama 3B to MoE: recipes/upcycle-llama-3b-to-moe.md