musa: use fixed warp size (32) in mul_mat_vec_q_cuda

yeahdongcn · yeahdongcn · commit 944e1feae41f · 2025-03-18T16:13:06.000+08:00
Signed-off-by: Xiaodong Ye &lt;xiaodong.ye@mthreads.com&gt;
diff --git a/ggml/src/ggml-cuda/mmvq.cu b/ggml/src/ggml-cuda/mmvq.cu
@@ -219,7 +219,12 @@ static void mul_mat_vec_q_cuda(
     GGML_ASSERT(ncols_y <= MMVQ_MAX_BATCH_SIZE);
 
     const int device = ggml_cuda_get_device();
+#ifndef GGML_USE_MUSA
     const int warp_size = ggml_cuda_info().devices[device].warp_size;
+#else // GGML_USE_MUSA
+    const int warp_size = WARP_SIZE;
+#endif // GGML_USE_MUSA
+
     const mmvq_parameter_table_id table_id = get_device_table_id(ggml_cuda_info().devices[device].cc);
 
     switch (ncols_y) {