반응형 Nvidia24 HGX와 DGX HGX와 DGX는 NVIDIA의 고성능 컴퓨팅(HPC) 및 AI 워크로드를 위한 하드웨어 플랫폼 이름인데, 각각의 용도와 구성 방식이 다릅니다. 아래에 간단히 차이를 정리해 드릴게요:✅ NVIDIA HGXHGX는 '플랫폼'입니다.서버 제조사들이 이를 기반으로 서버를 커스터마이징할 수 있도록 만든 모듈형 설계 플랫폼이에요.GPU, NVSwitch, NVLink 등의 구성 요소가 결합된 백플레인 구조의 보드를 의미.HGX 플랫폼에는 일반적으로 4개 또는 8개의 A100, H100 같은 고성능 GPU가 탑재됩니다.서버 브랜드들(Dell, Supermicro, Inspur 등)이 이걸 기반으로 AI 서버 제품을 개발합니다.유연성이 큰 장점이에요 — 메모리, CPU, 네트워크 등은 서버 제조사가 조정 가능.사용 .. 2025. 4. 21. A100에서 MIG 구성 가능 최대 수량 ✅ A100에서 MIG 구성 가능 수량 요약항목최대 개수 (A100 40GB / 80GB 기준)GPU Instance (GI)최대 7개Compute Instance (CI)GI별로 다르지만, 최대 총 7개까지 생성 가능 🧩 중요한 개념: GI와 CI의 1:1 관계하나의 GI에는 최소 하나의 CI가 있어야 연산이 가능하나의 GI 안에 여러 CI를 만들 수 있는 경우도 있음, 하지만 총 CI 수는 7개를 초과할 수 없음대부분의 경우, GI 1개에 CI 1개 (1:1 매핑) 으로 사용하는 것이 일반적하지만 특정 크기의 GI를 만들면, 그 안에서 여러 개의 CI를 나누어 사용할 수 있는 구조도 존재합니다. (CI 다중 구성 가능)🔍 예시로 살펴보기 (A100 40GB 기준)GI 프로파일 (형태)GPU 메모리.. 2025. 3. 9. MIG Instance 정리. NVIDIA의 MIG(Multi-Instance GPU) 기능에서 GPU Instance와 Compute Instance는 서로 다른 역할을 합니다.🛠️ 1. GPU Instance (GI)란?물리적인 GPU의 하드웨어 리소스를 논리적으로 분할한 것메모리(RAM), 캐시, SM(Streaming Multiprocessors) 등의 자원을 분리하여 가상화할당된 GPU 메모리와 연산 유닛을 독립적으로 사용 가능각 Instance는 다른 사용자 또는 프로세스에서 독립적으로 실행➡️ 하드웨어 리소스를 나누는 기본 단위⚡ 2. Compute Instance (CI)란?GPU Instance 내부에서 실행되는 연산 단위하나의 GPU Instance(GI) 안에서 여러 개의 Compute Instance(CI)를 .. 2025. 3. 9. nvidia-smi 옵션값 정리 🔹 nvidia-smi (NVIDIA System Management Interface) 정리✅ nvidia-smi는 NVIDIA GPU의 상태를 모니터링 및 관리하는 CLI 도구야.✅ Windows 및 Linux에서 사용 가능하며, CUDA 및 드라이버 정보도 제공해.✅ AI, 머신러닝, 데이터센터 환경에서 GPU 리소스를 최적화하는 데 사용됨.📌 기본 사용법 #nvidia-smi # 기본 GPU 상태 출력 nvidia-smi --help # 사용 가능한 옵션 확인 📌 주요 옵션 정리 (줄임 옵션 포함)✅ GPU 정보 확인 관련 옵션긴 옵션 (--long-option)짧은 옵션 (-short)설명예제--query-qGPU 전체 정보 조회nvidia-smi -q--query-gpu없음GPU 특정 .. 2025. 3. 8. Mellanox driver 설치 페이지 찾기(ubuntu22.04) 공홈 - 드라이버https://www.nvidia.com/ko-kr/ AI 컴퓨팅의 세계적인 리더NVIDIA는 세계에서 가장 빠른 슈퍼컴퓨터와 가장 큰 게이밍 플랫폼을 만듭니다.www.nvidia.com 네트워킹 드라이버-Infiniband/VPI 드라이버MLNX_OFEDMLNX_OFED Download Center 에서 해당 ~.tgz 클릭 해당 박스 체크 - 'I Accept' 누르면 설치 시작 2024. 9. 22. nvidia-smi drain 명령어 명령어에 대한 설명을 온라인에서 찾기 어려워서 작성해둡니다. 특정 GPU의 드라이버상에서 인식을 Disable할 때 사용했습니다. #nvidia-smiroot@user:~# nvidia-smi #nvidia-smi drain root@user:~# nvidia-smi drain drain -- Display drain state information about the system as well as remove and discover devices. Usage: nvidia-smi drain [options] Options include: [-p | --pciid]: GPU PCI ID in the format XXXX:YY.Z.a where .. 2024. 9. 1. 이전 1 2 3 4 다음 반응형