vgpu安装成功后无法使用cuda #662

su161021 · 2024-11-30T16:06:25Z

python test_pytorch.py
[HAMI-core Msg(30:140387636202368:libvgpu.c:836)]: Initializing.....
[HAMI-core Msg(30:140387636202368:libvgpu.c:855)]: Initialized
[HAMI-core ERROR (pid:30 thread=140382094939712 allocator.c:53)]: Device 0 OOM 3171158016 / 3145728000
Traceback (most recent call last):
File "/data/test_pytorch.py", line 69, in
run_gpu_stress_test() # 启动 GPU 持续计算任务
^^^^^^^^^^^^^^^^^^^^^
File "/data/test_pytorch.py", line 61, in run_gpu_stress_test
loss = train_one_epoch() # 每次训练都执行一次
^^^^^^^^^^^^^^^^^
File "/data/test_pytorch.py", line 51, in train_one_epoch
loss.backward() # 反向传播
^^^^^^^^^^^^^^^
File "/opt/conda/lib/python3.11/site-packages/torch/_tensor.py", line 581, in backward
torch.autograd.backward(
File "/opt/conda/lib/python3.11/site-packages/torch/autograd/init.py", line 347, in backward
_engine_run_backward(
File "/opt/conda/lib/python3.11/site-packages/torch/autograd/graph.py", line 825, in _engine_run_backward
return Variable._execution_engine.run_backward( # Calls into the C++ engine to run the backward pass
^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
RuntimeError: CUDA error: unrecognized error code
Compile with TORCH_USE_CUDA_DSA to enable device-side assertions.

有大佬遇到这个问题吗，插件都是正常的 pod也能起来，同样的程序同样的经常使用docker run就能跑，vgpu以后就报错了

The text was updated successfully, but these errors were encountered:

Radical-3 · 2024-12-01T06:09:26Z

请问您可以成功创建申请了gpu的pod吗，我部署HAMi之后，创建pod报错，想问一下您是怎么部署的。

su161021 · 2024-12-02T02:27:12Z

请问您可以成功创建申请了gpu的pod吗，之后我配置了HAMi，创建pod报错，想问一下您是怎么配置的。

我可以正常申请gpu pod ，就是在pod里使用gpu的时候会报cuda错误，我使用的是master分支安装的，您可以参考master分支安装教程

Nimbus318 · 2024-12-02T02:28:46Z

@su161021 你这个程序要申请 3171158016，但是这个 Pod 最多就 3145728000（3000MiB），被 HAMi-core 限了，返回了 OOM，所以你 Pod 的声明把 nvidia.com/gpumem 稍微调大一点试试

Radical-3 · 2024-12-02T03:03:32Z

方便加一下wx吗，我想向您询问一下具体情况 @su161021，我的wx号是a2973051203

su161021 · 2024-12-02T04:15:37Z

@su161021 你这个程序要申请 3171158016，但是这个 Pod 最多就 3145728000（3000MiB），被 HAMi-core 限了，返回了 OOM，所以你 Pod 的声明把 nvidia.com/gpumem 稍微调大一点试试

感谢指教，调大了确实好了，不过我看算力好像没有限制住，只起一个pod的话 nvidia.com/gpucores: 30，pod里面运行程序还是可以使用到100的算力，这个您有遇到过吗

su161021 · 2024-12-02T04:15:47Z

方便加一下wx吗，我想向您询问一下具体情况 @su161021，我的wx号是a2973051203

加你了

Nimbus318 · 2024-12-02T04:26:56Z

@su161021 你的问题在 issue 的置顶栏里面可以找到 FAQ，里面有一个中文版的链接，这个回答我还没有完善所以在 Draft 里

也就是说如果现在单卡上就这一个 Pod 在使用算力，可以用到 100 的算力，是符合预期的

su161021 · 2024-12-02T04:37:19Z

@su161021 你的问题在 issue 的置顶栏里面可以找到 FAQ，里面有一个中文版的链接，这个回答我还没有完善所以在 Draft 里

也就是说如果现在单卡上就这一个 Pod 在使用算力，可以用到 100 的算力，是符合预期的

感谢大佬回复设置完以后看着是限制住了

su161021 added the kind/bug Something isn't working label Nov 30, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

vgpu安装成功后无法使用cuda #662

vgpu安装成功后无法使用cuda #662

su161021 commented Nov 30, 2024

Radical-3 commented Dec 1, 2024

su161021 commented Dec 2, 2024

Nimbus318 commented Dec 2, 2024

Radical-3 commented Dec 2, 2024

su161021 commented Dec 2, 2024

su161021 commented Dec 2, 2024

Nimbus318 commented Dec 2, 2024

su161021 commented Dec 2, 2024

vgpu安装成功后 无法使用cuda #662

vgpu安装成功后 无法使用cuda #662

Comments

su161021 commented Nov 30, 2024

Radical-3 commented Dec 1, 2024

su161021 commented Dec 2, 2024

Nimbus318 commented Dec 2, 2024

Radical-3 commented Dec 2, 2024

su161021 commented Dec 2, 2024

su161021 commented Dec 2, 2024

Nimbus318 commented Dec 2, 2024

su161021 commented Dec 2, 2024

vgpu安装成功后无法使用cuda #662

vgpu安装成功后无法使用cuda #662