본문 바로가기
반응형

Nvidia/TEST4

DCGMI repository 등록 및 설치/실행(Ubuntu 22.04.3) https://docs.nvidia.com/datacenter/dcgm/latest/user-guide/getting-started.html Getting Started — NVIDIA DCGM Documentation latest documentationPost-Install Warning On HGX systems (A100/A800 and H100/H800), you will need to install the NVIDIA Switch Configuration and Query (NSCQ) library for DCGM to enumerate the NVSwitches and provide telemetry for switches. Refer to the HGX Software Guide for m.. 2023. 10. 18.
NVLINK 상태 확인 해당 명령어는 driver 설치 후에 이용이 가능하다. driver 설치 후에 확인해보자. https://ccclog.tistory.com/50 PPA를 통한 Nvidia 드라이버 설치 Ubuntu 18.04에서 진행. >> add-apt-repository ppa:/graphics-drivers/ppa *23.04에서는 add-apt-repository ppa:graphics-drivers/ppa로 설치 확인. >> apt-get update >> apt-get install nvidia-driver-xxx #원하는 드라이버 버전 지정 >>nvidia-s ccclog.tistory.com >>nvidia-smi topo -m 해당 명령어를 통해서, nvlink mapping이 확인가능하다. >>nvii.. 2023. 9. 23.
GPU-BURN *GPU-Burn에는 Nvidia-driver 및 Cuda 설치 필요. >>git clone https://github.com/wilicc/gpu-burn >>cd gpu-burn >>make >>./gpu-burn 86400 #86400(24시간) 동안 수행. GPU-burn시에, Nvidia-smi 확인. >> watch –d –n 1 nvidia-smi #바뀌는 부분만 음영 + 1초마다 해당 명령어 출력물 갱신. 2022. 11. 14.
Nvidia-bug-report.sh 리눅스에서, nvidia 드라이버가 설치되어 있는 환경이라면, 어떠한 위치에서도 사용가능한 명령어이다. 실행한 위치에서, nvidia-bug-report.log.gz 로그파일이 생성된다. 2022. 11. 3.
반응형