핵심요약
네이버는 대규모 쿠버네티스 GPU 클러스터에서 자체 HPA 시스템을 구축하여 글로벌 AI 서비스 트래픽에 동적으로 대응하는 오토스케일링을 성공적으로 적용했습니다.
대규모 쿠버네티스 GPU 클러스터 기반 AI 서비스 오토스케일링
배경 및 GPU Orchestration의 필요성
- NAVER ENGINEERING DAY 2025에서 발표된 내용으로, 대규모 GPU 클러스터에서 AI 서비스의 동적 트래픽 대응을 위한 오토스케일링 사례를 소개합니다.
- SNOW와 같은 AI 서비스는 글로벌 사용자 트래픽에 민감하게 반응해야 하며, 이를 위해 GPU 자원의 효율적인 오케스트레이션이 필수적입니다.
- 이 세션은 GPU 서버 기반 Kubernetes 클러스터 도입 및 AI 서비스 오토스케일링 고도화를 고려하는 엔지니어에게 유용합니다.
GPU 기반 서비스 오토스케일링의 도전 과제
- GPU 리소스는 일반 CPU와 달리 활용률 측정 및 효율적인 스케일링 정책 수립이 복잡합니다.
- AI 워크로드의 특성상 피크 타임에 자원을 과도하게 프로비저닝하거나, 비효율적인 자원 활용으로 이어질 수 있습니다.
- 기존 **Kubernetes HPA(Horizontal Pod Autoscaler)**만으로는 GPU 활용률을 정교하게 제어하는 데 한계가 존재합니다.
SNOW의 GPU Orchestration 시스템 구축 및 효과
- SNOW는 이러한 도전 과제를 해결하기 위해 대규모 쿠버네티스 GPU 클러스터에 자체 HPA 시스템을 성공적으로 구축했습니다.
- 시스템은 **KEDA(Kubernetes Event-Driven Autoscaler)**와 같은 기술을 활용하여 AI 서비스의 동적 트래픽에 유연하게 대응합니다.
- 이를 통해 GPU 리소스의 동적 할당 및 회수를 최적화하여 자원 효율성을 극대화하고 서비스의 고가용성을 보장합니다.
네이버 D2