OpenMined · dvadym · Apr 2, 2025 · Mar 27, 2025 · Mar 28, 2025 · Mar 28, 2025
diff --git a/pipeline_dp/pipeline_backend.py b/pipeline_dp/pipeline_backend.py
@@ -17,8 +17,8 @@
 import multiprocessing as mp
 import random
 import numpy as np
-from collections.abc import Iterable
-from typing import Callable
+from collections.abc import Iterable, Iterator
+from typing import Callable, List
 
 import abc
 import pipeline_dp.combiners as dp_combiners
@@ -474,11 +474,39 @@ def to_list(self, col, stage_name: str):
         raise NotImplementedError("to_list is not implement in SparkBackend.")
 
 
+class ReiterableLazyIterable(Iterable):
+    """A lazy iterable that can be iterated multiple times.
+
+    It generates elements on the first iteration and stores them.
+    Subsequent iterations yield the stored elements.
+    """
+
+    def __init__(self, iterable: Iterable):
+        """Initializes the ReiterableLazyIterable.
+
+        Args:
+            iterable: Iterable to make reiterable
+        """
+        self._iterable = iterable
+        self._cache: List = None
+        self._first_run_complete = False
+
+    def __iter__(self) -> Iterator:
+        if not self._first_run_complete:
+            self._cache = []
+            for item in self._iterable:
+                self._cache.append(item)
+                yield item
+            self._first_run_complete = True
+        else:
+            yield from self._cache
+
+
 class LocalBackend(PipelineBackend):
     """Local Pipeline adapter."""
 
     def to_multi_transformable_collection(self, col):
-        return list(col)
+        return ReiterableLazyIterable(col)
 
     def map(self, col, fn, stage_name: typing.Optional[str] = None):
         return map(fn, col)
@@ -520,6 +548,8 @@ def filter_by_key(
         keys_to_keep,
         stage_name: typing.Optional[str] = None,
     ):
+        if not isinstance(keys_to_keep, set):
+            keys_to_keep = set(keys_to_keep)
         return (kv for kv in col if kv[0] in keys_to_keep)
 
     def keys(self, col, stage_name: typing.Optional[str] = None):

diff --git a/pipeline_dp/pipeline_functions.py b/pipeline_dp/pipeline_functions.py
@@ -146,10 +146,6 @@ def filter_by_key_with_sharding(backend: pipeline_backend.PipelineBackend, col,
             lambda p: tuple((p, i) for i in range(sharding_factor)),
             f"Shard partitions into {sharding_factor} keys",
         )
-        # to_multi_transformable_collection is no-op for not LocalMode. For
-        # local mode it is transform iterable to list, which is neded because
-        # filter_by_key requires list.
-        keys_to_keep = backend.to_multi_transformable_collection(keys_to_keep)
 
     col_filtered = backend.filter_by_key(col, keys_to_keep, stage_name)
 

diff --git a/tests/pipeline_backend_test.py b/tests/pipeline_backend_test.py
@@ -427,6 +427,11 @@ def setUpClass(cls):
             privacy_id_extractor=lambda x: x[0],
             value_extractor=lambda x: x[2])
 
+    def test_to_multi_transformable_collection(self):
+        col = self.backend.to_multi_transformable_collection(range(5))
+        self.assertEqual(list(col), [0, 1, 2, 3, 4])
+        self.assertEqual(list(col), [0, 1, 2, 3, 4])
+
     def test_local_map(self):
         self.assertEqual(list(self.backend.map([], lambda x: x / 0)), [])
 
@@ -588,7 +593,7 @@ def assert_laziness(operator, *args):
         assert_laziness(self.backend.sum_per_key)
         assert_laziness(self.backend.flat_map, str)
         assert_laziness(self.backend.sample_fixed_per_key, int)
-        assert_laziness(self.backend.filter_by_key, list)
+        assert_laziness(self.backend.filter_by_key, [1, 2])
         assert_laziness(self.backend.distinct, str)
 
     def test_local_sample_fixed_per_key_requires_no_discarding(self):