본문 바로가기
Hardware

[UPS] HPC 엔지니어를 위한 UPS 시스템 이해하기

by Yoon_estar 2025. 2. 24.
728x90

🚀 개요

고성능 컴퓨팅(HPC) 환경에서는 지속적인 가동 시간과 안정적인 전력 공급이 필수적입니다. 예기치 않은 전력 중단, 전압 변동 또는 전력 서지는 작업 실패, 데이터 손상 및 하드웨어 손상을 초래할 수 있습니다. 이러한 문제를 방지하기 위해 **무정전 전원 공급 장치(UPS)**는 HPC 인프라에서 중요한 구성 요소가 됩니다. 이 블로그에서는 UPS 시스템이 HPC에 필수적인 이유, 작동 방식, 그리고 UPS를 선택할 때 고려해야 할 사항을 살펴보겠습니다.

 

🖥️ HPC 시스템에서 UPS가 중요한 이유

  • 작업 중단: HPC 클러스터에서 실행되는 시뮬레이션과 연산 작업은 며칠 또는 몇 주가 걸릴 수 있습니다. 갑작스러운 전력 차단은 작업을 재시작해야 하는 상황을 초래하여 시간을 낭비하게 됩니다.
  • 데이터 손실 및 손상: 예상치 못한 시스템 종료는 메모리 내 데이터 및 저장 시스템을 손상시킬 수 있습니다.
  • 하드웨어 손상: 전력 서지와 변동은 GPU, CPU, 스토리지 등 핵심 구성 요소에 손상을 줄 수 있습니다.
  • 시스템 다운타임: HPC 환경에서 전력 중단 후 다시 시작하는 데 몇 시간이 걸릴 수 있어 운영 효율성이 저하됩니다.

적절한 UPS 솔루션을 사용하면 이러한 위험을 줄이고 전력 공급 중단 시 백업 전력을 제공하며 전력 변동을 안정적으로 조절할 수 있습니다.

 

🖥️ UPS 시스템의 작동 원리

UPS는 전력망과 HPC 인프라 사이의 완충 역할을 합니다. UPS의 핵심 기능은 다음과 같습니다:

  1. 전압 조정: 전압 변동을 수정하여 일정한 전압을 유지합니다.
  2. 배터리 백업: 전력 공급 중단 시 일정 시간 동안 전력을 제공합니다.
  3. 서지 보호: 전압 급등으로부터 전자 장비를 보호합니다.
  4. 전력 정제: 전기적 노이즈와 고조파를 제거하여 시스템 성능 저하를 방지합니다.

UPS의 유형

HPC 환경에서는 온라인(이중 변환) UPS가 최고의 전력 보호를 제공하기 때문에 일반적으로 선호됩니다. 주요 UPS 유형은 다음과 같습니다:

  • 오프라인(대기) UPS: 최소한의 보호만 제공하며 HPC에는 적합하지 않습니다.
  • 라인 인터랙티브 UPS: 전압 조정을 제공하며 덜 중요한 IT 인프라에 적합합니다.
  • 온라인(이중 변환) UPS: 지속적으로 AC 전력을 DC로 변환한 후 다시 AC로 변환하여 최고의 보호 기능을 제공합니다. HPC 클러스터에 가장 적합한 선택입니다.

🖥️ HPC를 위한 UPS 선택 시 고려해야 할 사항

HPC를 위한 UPS 선택은 일반적인 IT 환경과 다릅니다. 다음과 같은 주요 요소를 고려해야 합니다:

1. 전력 용량(VA 및 kW 등급)

HPC 클러스터는 상당한 전력을 소비합니다. UPS 용량은 클러스터의 총 전력 소비량을 초과해야 합니다. 공식:

2. 런타임 요구사항

UPS가 정전 시 얼마나 오래 클러스터를 유지해야 하는지 결정해야 합니다. 발전기를 사용하는 경우 UPS는 전환 기간 동안 전력을 제공할 수 있어야 합니다.

3. 확장성

HPC 환경은 시간이 지나면서 확장됩니다. 모듈형 UPS 시스템을 사용하면 전력 수요 증가에 맞춰 확장할 수 있습니다.

4. 이중화 및 고가용성

N+1 또는 2N 이중화는 신뢰성을 보장합니다. 병렬 이중화 UPS 설정은 단일 장애 지점을 방지합니다.

5. 배터리 기술

리튬 이온 배터리는 납산 배터리에 비해 수명이 길고, 효율이 높으며, 유지보수가 적기 때문에 점점 더 선호되고 있습니다.

6. 모니터링 및 관리

HPC 엔지니어는 UPS 시스템을 SNMP, Modbus 또는 API 기반 소프트웨어와 통합하여 배터리 상태, 부하 수준 및 오류를 실시간으로 모니터링해야 합니다.

 

🖥️ HPC 환경에서 UPS 배포 모범 사례

  1. 전력 감사 수행: UPS를 선택하기 전에 현재 및 미래의 전력 요구사항을 평가해야 합니다.
  2. 적절한 냉각 확보: UPS 장치는 열을 발생시키므로 적절한 환기 또는 전용 냉각 시스템이 필요합니다.
  3. 정기 유지보수 수행: 배터리 테스트 및 펌웨어 업데이트를 정기적으로 수행합니다.
  4. 자동 종료 정책 구현: 배터리 수준이 임계점에 도달하면 HPC 노드를 안전하게 종료하는 소프트웨어를 사용합니다.
  5. 미래 확장을 고려한 설계: UPS 시스템을 설계할 때 HPC 확장을 고려하여 여유 용량을 확보합니다.

🚀 결론

UPS 시스템은 단순한 백업 전원이 아니라 HPC 인프라를 보호하는 필수 요소입니다. 안정적인 전력 공급을 통해 연산 작업을 지속하고 데이터 손실을 방지하며 시스템 다운타임을 최소화할 수 있습니다. HPC 엔지니어는 UPS를 선택할 때 용량, 런타임, 이중화, 모니터링 기능 등을 신중하게 고려해야 합니다. 신뢰할 수 있는 UPS 솔루션에 투자하면 HPC 작업이 예기치 않은 전력 문제에도 원활하게 수행될 수 있습니다.