请问如何用VLLM部署33B #27

laisun · 2023-11-10T09:21:06Z

会报错啊，单机A100 ，torch 2.01， transformers 4.35
key = torch.repeat_interleave(key, self.num_queries_per_kv, dim=1)
RuntimeError: CUDA error: an illegal memory access was encountered
CUDA kernel errors might be asynchronously reported at some other API call, so the stacktrace below might be incorrect.
For debugging consider passing CUDA_LAUNCH_BLOCKING=1.
Compile with TORCH_USE_CUDA_DSA to enable device-side assertions.

The text was updated successfully, but these errors were encountered:

soloice · 2023-11-28T12:47:24Z

单机 A100 是几张卡？打开 CUDA_LAUNCH_BLOCKING=1 试试呢，报错在哪里？

FrankWhh · 2023-11-30T03:08:09Z

我部署后输出是乱码，有人遇到过吗

txy6666yr · 2023-12-10T11:14:32Z

单机 A100 是几张卡？打开 CUDA_LAUNCH_BLOCKING=1 试试呢，报错在哪里？

请问有vllm部署的教程吗？或者文件分享下文件

hyperbolic-c · 2024-04-12T06:31:43Z

请问vllm部署时如何使用多卡加载模型，使用CUDA_VISIBLE_DEVICES=0,1还是只有一张卡load了，很奇怪，谢谢

mklf · 2024-04-12T06:33:36Z

请问vllm部署时如何使用多卡加载模型，使用CUDA_VISIBLE_DEVICES=0,1还是只有一张卡load了，很奇怪，谢谢

try add --tp=2 to launch argument

hyperbolic-c · 2024-04-17T12:51:02Z

请问vllm部署时如何使用多卡加载模型，使用CUDA_VISIBLE_DEVICES=0,1还是只有一张卡load了，很奇怪，谢谢

try add --tp=2 to launch argument

thanks, I have solved it by set --tensor-parallel-size >1.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

请问如何用VLLM部署33B #27

请问如何用VLLM部署33B #27

laisun commented Nov 10, 2023

soloice commented Nov 28, 2023

FrankWhh commented Nov 30, 2023

txy6666yr commented Dec 10, 2023

hyperbolic-c commented Apr 12, 2024

mklf commented Apr 12, 2024

hyperbolic-c commented Apr 17, 2024

请问如何用VLLM部署33B #27

请问如何用VLLM部署33B #27

Comments

laisun commented Nov 10, 2023

soloice commented Nov 28, 2023

FrankWhh commented Nov 30, 2023

txy6666yr commented Dec 10, 2023

hyperbolic-c commented Apr 12, 2024

mklf commented Apr 12, 2024

hyperbolic-c commented Apr 17, 2024