HAMi 是否存在小概率的异常？无法正常获取显存 #648

autherlj · 2024-11-27T05:57:36Z

Please provide an in-depth description of the question you have:

What do you think about this question?:

Environment: K8S 1.23.9 with hami helm

HAMi version: v2.3.12
Kubernetes version: v 1.23.9
Others: cuda版本12.2 N卡驱动535.154.05
-Docker docker版本是18.09.0

问题描述：
有2套完全一致的K8S环境，如上述版本
其中A环境可以运行模型，B环境运行模型是卡主在load过程，没有任何报错以及日志。重启了hami-vgpu-device-plugin对应的pod，但是helm和hami-vgpu-scheduler没有重启过
A环境的运行情况如下：

B环境的运行情况如下：

同样的显卡T4，然后测试在B环境的T4宿主机器用docker run --runtime=nvidia的方式，发现模型也可以运行。
现在怀疑是B环境的HAMi是否有异常，但是查看日志没有任何线索，请求协助！
B环境的hami-vgpu-device-plugin日志：

Nimbus318 · 2024-11-27T06:16:03Z

我目前看截图的信息感觉，我有点迷糊了，看你描述是两套一样的环境，都是 T4

可是从 A 环境的截图看，确实是 T4，然后 B 环境的截图，里面又是 V100，可是 B 环境的 DevicePlugin 的日志，看起来是四张 A2 的卡，所以有点没搞清楚

autherlj · 2024-11-27T07:04:21Z

我目前看截图的信息感觉，我有点迷糊了，看你描述是两套一样的环境，都是 T4

可是从 A 环境的截图看，确实是 T4，然后 B 环境的截图，里面又是 V100，可是 B 环境的 DevicePlugin 的日志，看起来是四张 A2 的卡，所以有点没搞清楚

不好意思，因为图很难拿出，但是日志内容是一致的，我们B环境在A2 T4 V100都测试了都不行。不过A环境运行的是T4和V100

archlitchi · 2024-11-27T07:35:15Z

看一下任务yaml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

HAMi 是否存在小概率的异常？无法正常获取显存 #648

HAMi 是否存在小概率的异常？无法正常获取显存 #648

autherlj commented Nov 27, 2024

Nimbus318 commented Nov 27, 2024

autherlj commented Nov 27, 2024

archlitchi commented Nov 27, 2024

HAMi 是否存在小概率的异常？无法正常获取显存 #648

HAMi 是否存在小概率的异常？无法正常获取显存 #648

Comments

autherlj commented Nov 27, 2024

Nimbus318 commented Nov 27, 2024

autherlj commented Nov 27, 2024

archlitchi commented Nov 27, 2024