본문 바로가기
728x90
반응형

HPC45

[Ubuntu] SGE 설치 패키지 설치# apt install -y vim ssh git build-essential libhwloc-dev libssl-dev libtirpc-dev \libmotif-dev libxext-dev libncurses-dev libdb5.3-dev libpam0g-dev pkgconf \libsystemd-dev cmake gcc default-jdk qtchooser make gcc default-jdk qtchooser \make gcc default-jdk qtchooser csh# gcc --version# make --version 사전 준비# groupadd -g 490 sgeadmin# useradd -u 495 -g 490 -r -m -d /home/sgeadmin -s /bin/ba.. 2024. 9. 3.
[NVIDIA] MIG(Multi-Instance-GPU) Docker 컨테이너에 할당 1. MIG 활성화확인(비활성화 되어 있음)# nvidia-smiWed Jul 31 10:57:26 2024 +-----------------------------------------------------------------------------------------+| NVIDIA-SMI 550.90.07 Driver Version: 550.90.07 CUDA Version: 12.4 ||-----------------------------------------+------------------------+----------------------+| GPU Name Persistence-M | Bus-Id .. 2024. 8. 3.
[NVIDIA] MIG 활용시 배포 및 시스템 고려 사항 배포 고려 사항MIG 기능은 NVIDIA GPU 드라이버의 일부로 제공된다.H100 GPU는 CUDA 12/R525 드라이버부터 지원A100 및 A30 GPU는 CUDA 11/R450 드라이버부터 지원시스템 고려사항지원되는 운영체제 : CUDA 에서 지원하는 Linux 운영체제 배포판에서만 지원됨장치 노드 접근 : ./proc시스템 수준 인터페이스 대신, /dev cgroup을 통해 MIG 장치의 액세스 메커니즘을 제어하는 것이 권장됩니다. 이 기능은 450.80.02+ 드라이버부터 사용할 수 있습니다.지원되는 구성컨테이너를 포함한 베어메탈 환경지원되는 하이퍼바이저 위의 Linux 게스트에 대한 GPU 패스스루 가상화지원되는 하이퍼바이저 위의 vGPU지원되는 MIG 프로필A30 MIG 프로필A100 MI.. 2024. 8. 1.
[NVIDIA] MIG를 활용한 고성능 컴퓨팅 환경 구축 1. Kubernetes & MIGKubernetes는 컨테이너화된 애플리케이션의 배포, 확장, 관리를 자동화하는 오픈 소스 플랫폼입니다. MIG와 Kubernetes를 통합하면 다음과 같은 이점을 얻을 수 있습니다:리소스 최적화: Kubernetes의 자원 할당 기능과 MIG의 인스턴스 분할 기능을 결합하여 GPU 자원을 최적화할 수 있습니다.유연한 스케줄링: Kubernetes의 스케줄러를 사용하여 다양한 크기의 MIG 인스턴스를 필요에 따라 유연하게 할당할 수 있습니다.자동화된 관리: Kubernetes의 오토스케일링과 자원 모니터링 기능을 통해 GPU 사용량을 자동으로 관리하고 최적화할 수 있습니다.1.1 Kubernetes 설정 예시Kubernetes 노드 설정: 각 노드에서 NVIDIA 드라이.. 2024. 7. 31.
[NVIDIA] NVIDIA Multi-Instance GPU (MIG) 개요 및 가이드 1. MIG 정의 및 개요NVIDIA의 Multi-Instance GPU (MIG) 기술은 고성능 컴퓨팅 환경에서 GPU 리소스를 효율적으로 분할하여 사용할 수 있도록 하는 혁신적인 기술입니다. 이 블로그에서는 MIG의 개요, 지원되는 GPU, 주요 용어, 및 지원 장치 이름 등을 다루겠습니다.1.1 MIG 사용의 주요 목적고성능 분할 : 하나의 물리적 GPU를 여러 개의 독립적인 가상 GPU 인스턴스로 분할하여 다양한 워크로드를 병렬로 처리할 수 있습니다. 리소스 최적화 : 필요에 따라 다양한 크기의 인스턴스를 생성하여 자원 사용의 유연성을 제공합니다. 보안성 및 안정성 : 각 인스턴스가 하드웨어 수준에서 격리되어 있어, 하나의 인스턴스에서 발생한 문제가 다른 인스턴스에 영향을 미치지 않습니다. 클라우.. 2024. 7. 30.
[NVIDIA] CUDA Driver 설치 Cuda Version Check# nvidia-smi Wed Jun 19 18:09:47 2024 +-----------------------------------------------------------------------------+| NVIDIA-SMI 470.239.06 Driver Version: 470.239.06 CUDA Version: 11.4 ||-------------------------------+----------------------+----------------------+| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC || Fan Temp Perf P.. 2024. 7. 29.
728x90
반응형