-
Notifications
You must be signed in to change notification settings - Fork 0
Open
Description
https://github.com/NVIDIA/gpu-monitoring-tools
DCGM 을 이용하여 프로메테우스에 GPU 메트릭을 제공하는 작업임.
로컬에 설치하지 않고, 링크 에 제시된 방법대로 컨테이너에서 제공
따라서, 각 서버에서 nvcr.io/nvidia/k8s/dcgm-exporter:2.0.13-2.1.2-ubuntu18.04 이미지를 사용하여 가동중인 컨테이너는
삭제하지 않도록 주의해야 함.
현재(2021.06.21) 1-6 번 서버는 9400 번 포트를 통해서 GPU 메트릭을 제공중임.
7번 서버는 적용하는데 문제가 있어 서베이 중.
해당 문서는 프로메테우스 통합문서(#6) 에 일부 내용을 병합하겠음.
추가작업
Grafana 대시보드를 수정하여서 GPU도 서버별로 볼 수 있도록 제공하였음
대시보드 이름은 GPU 대시보드 임
Metadata
Metadata
Assignees
Labels
No labels