fix ut pin_memory error

Ronald1995 · Ronald1995 · commit 3a2de935a6f0 · 2025-11-29T11:49:37.000+08:00
Signed-off-by: Ronald1995 &lt;ronaldautomobile@163.com&gt;
diff --git a/tests/ut/attention/test_attention_v1.py b/tests/ut/attention/test_attention_v1.py
@@ -65,6 +65,7 @@ class TestAscendAttentionMetadataBuilder(TestBase):
            new_callable=lambda: MagicMock(spec=GroupCoordinator))
     @patch("vllm.distributed.get_decode_context_model_parallel_world_size",
            return_value=1)
+    @patch("torch.Tensor.pin_memory", lambda x: x)
     def setUp(self, mock_get_dcp_size, mock_dcp, mock_get_dcp_group):
         mock_dcp.world_size = 1
         dcp_group = MagicMock(spec=GroupCoordinator)
diff --git a/tests/ut/attention/test_mla_v1.py b/tests/ut/attention/test_mla_v1.py
@@ -261,6 +261,7 @@ def test_ascend_mla_metadata_builder_spec_decode(self, mock_get_dcp_size,
            new_callable=lambda: MagicMock(spec=GroupCoordinator))
     @patch("vllm.distributed.get_decode_context_model_parallel_world_size",
            return_value=1)
+    @patch("torch.Tensor.pin_memory", lambda x: x)
     def test_ascend_mla_metadata_builder_build_full_graph(
             self, mock_get_dcp_size, mock_dcp, mock_get_dcp_group):
         mock_vllm_config = MagicMock()
@@ -454,6 +455,7 @@ def setUp(self):
         "vllm_ascend.attention.mla_v1.get_decode_context_model_parallel_world_size"
     )
     @patch("vllm_ascend.attention.mla_v1.get_ascend_config")
+    @patch("torch.Tensor.pin_memory", lambda x: x)
     def test_build_prefix_no_cache_metadata(self, mock_get_ascend_config,
                                             mock_dcp_world_size):
         if not torch.npu.is_available():
@@ -506,6 +508,7 @@ def test_build_prefix_no_cache_metadata(self, mock_get_ascend_config,
         "vllm_ascend.attention.mla_v1.get_decode_context_model_parallel_world_size"
     )
     @patch("vllm_ascend.attention.mla_v1.get_ascend_config")
+    @patch("torch.Tensor.pin_memory", lambda x: x)
     def test_build_chunked_prefix_metadata(self, mock_get_ascend_config,
                                            mock_dcp_world_size):
         if not torch.npu.is_available():
@@ -558,6 +561,7 @@ def test_build_chunked_prefix_metadata(self, mock_get_ascend_config,
         "vllm_ascend.attention.mla_v1.get_decode_context_model_parallel_world_size"
     )
     @patch("vllm_ascend.attention.mla_v1.get_ascend_config")
+    @patch("torch.Tensor.pin_memory", lambda x: x)
     def test_build_decode_only_metadata(self, mock_get_ascend_config,
                                         mock_dcp_world_size):
         mock_dcp_world_size.return_value = 1
@@ -607,6 +611,7 @@ def test_build_decode_only_metadata(self, mock_get_ascend_config,
         "vllm_ascend.attention.mla_v1.get_decode_context_model_parallel_world_size"
     )
     @patch("vllm_ascend.attention.mla_v1.get_ascend_config")
+    @patch("torch.Tensor.pin_memory", lambda x: x)
     def test_build_for_graph_capture_decode_only(self, mock_get_ascend_config,
                                                  mock_dcp_world_size):
         mock_dcp_world_size.return_value = 1
@@ -657,6 +662,7 @@ def test_build_for_graph_capture_decode_only(self, mock_get_ascend_config,
         "vllm_ascend.attention.mla_v1.get_decode_context_model_parallel_world_size"
     )
     @patch("vllm_ascend.attention.mla_v1.get_ascend_config")
+    @patch("torch.Tensor.pin_memory", lambda x: x)
     def test_build_for_graph_capture_prefill(self, mock_get_ascend_config,
                                              mock_dcp_world_size):
         mock_dcp_world_size.return_value = 1