intel · Chao1Han · Jun 5, 2025 · Jun 6, 2025 · Jun 11, 2025 · Jun 16, 2025
diff --git a/.github/scripts/apply_torch_pr.py b/.github/scripts/apply_torch_pr.py
@@ -9,6 +9,7 @@
 parser = argparse.ArgumentParser()
 parser.add_argument('--pr-list', '-n', nargs='+',
     default=[
+        "https://github.com/pytorch/pytorch/pull/155320"
         # Fallback to CPU for XPU FP64
         "https://github.com/pytorch/pytorch/pull/126516",
         # Modify the tolerance level in TIMM benchmark

diff --git a/test/xpu/distributed/test_c10d_xccl.py b/test/xpu/distributed/test_c10d_xccl.py
@@ -550,6 +550,23 @@ def test_all_gather_into_tensor(self):
                     tensor.view(torch.float32),
                 )
 
+    # Ensure xccl always xpu default distributed backend
+    @requires_xccl()
+    def test_xccl_priority(self):
+        dist.Backend.register_backend(
+            "fake",
+            lambda store, rank, size, timeout: dist.ProcessGroup(rank, size),
+            devices=["xpu"],
+        )
+        store = dist.FileStore(self.file_name, self.world_size)
+        dist.init_process_group(
+            world_size=self.world_size,
+            rank=self.rank,
+            store=store,
+        )
+        a = torch.randn(2, device="xpu")
+        dist.all_reduce(a)
-        dist.Backend.register_backend(
-            "fake",
-            lambda store, rank, size, timeout: dist.ProcessGroup(rank, size),
-            devices=["xpu"],
-        )
-        store = dist.FileStore(self.file_name, self.world_size)
-        dist.init_process_group(
-            world_size=self.world_size,
-            rank=self.rank,
-            store=store,
-        )
-        a = torch.randn(2, device="xpu")
-        dist.all_reduce(a)
+        try:
+            dist.Backend.register_backend(
+                "fake",
+                lambda store, rank, size, timeout: dist.ProcessGroup(rank, size),
+                devices=["xpu"],
+            )
+            store = dist.FileStore(self.file_name, self.world_size)
+            dist.init_process_group(
+                world_size=self.world_size,
+                rank=self.rank,
+                store=store,
+            )
+            a = torch.randn(2, device="xpu")
+            dist.all_reduce(a)
+        finally:
+            dist.Backend.unregister_backend("fake")
-        dist.Backend.register_backend(
-            "fake",
-            lambda store, rank, size, timeout: dist.ProcessGroup(rank, size),
-            devices=["xpu"],
-        )
-        store = dist.FileStore(self.file_name, self.world_size)
-        dist.init_process_group(
-            world_size=self.world_size,
-            rank=self.rank,
-            store=store,
-        )
-        a = torch.randn(2, device="xpu")
-        dist.all_reduce(a)
+        try:
+            dist.Backend.register_backend(
+                "fake",
+                lambda store, rank, size, timeout: dist.ProcessGroup(rank, size),
+                devices=["xpu"],
+            )
+            store = dist.FileStore(self.file_name, self.world_size)
+            dist.init_process_group(
+                world_size=self.world_size,
+                rank=self.rank,
+                store=store,
+            )
+            a = torch.randn(2, device="xpu")
+            dist.all_reduce(a)
+        finally:
+            dist.Backend.unregister_backend("fake")
+
 
 class SetDeviceMethod(Enum):
     TORCH_XPU_SET = auto()  # torch.xpu.set_device