Infra•2025. 07. 11.

Kubernetes GPU 클러스터에서 AI 서비스 오토스케일링하기

네이버 D2 Engineering Team

네이버 D2

핵심요약

네이버는 대규모 쿠버네티스 GPU 클러스터에서 자체 HPA 시스템을 구축하여 글로벌 AI 서비스 트래픽에 동적으로 대응하는 오토스케일링을 성공적으로 적용했습니다.

대규모 쿠버네티스 GPU 클러스터 기반 AI 서비스 오토스케일링

배경 및 GPU Orchestration의 필요성

NAVER ENGINEERING DAY 2025에서 발표된 내용으로, 대규모 GPU 클러스터에서 AI 서비스의 동적 트래픽 대응을 위한 오토스케일링 사례를 소개합니다.
SNOW와 같은 AI 서비스는 글로벌 사용자 트래픽에 민감하게 반응해야 하며, 이를 위해 GPU 자원의 효율적인 오케스트레이션이 필수적입니다.
이 세션은 GPU 서버 기반 Kubernetes 클러스터 도입 및 AI 서비스 오토스케일링 고도화를 고려하는 엔지니어에게 유용합니다.

GPU 기반 서비스 오토스케일링의 도전 과제

GPU 리소스는 일반 CPU와 달리 활용률 측정 및 효율적인 스케일링 정책 수립이 복잡합니다.
AI 워크로드의 특성상 피크 타임에 자원을 과도하게 프로비저닝하거나, 비효율적인 자원 활용으로 이어질 수 있습니다.
기존 **Kubernetes HPA(Horizontal Pod Autoscaler)**만으로는 GPU 활용률을 정교하게 제어하는 데 한계가 존재합니다.

SNOW의 GPU Orchestration 시스템 구축 및 효과

SNOW는 이러한 도전 과제를 해결하기 위해 대규모 쿠버네티스 GPU 클러스터에 자체 HPA 시스템을 성공적으로 구축했습니다.
시스템은 **KEDA(Kubernetes Event-Driven Autoscaler)**와 같은 기술을 활용하여 AI 서비스의 동적 트래픽에 유연하게 대응합니다.
이를 통해 GPU 리소스의 동적 할당 및 회수를 최적화하여 자원 효율성을 극대화하고 서비스의 고가용성을 보장합니다.

#Infra #Architecture #AI

네이버 D2

네이버 D2 Engineering Team

기술 인사이트를 전달하는 공식 채널

You might also like

데이터 쌓기만 하면 뭐하나? ‘어떻게 볼지’를 모르는데 – LG전자의 Agentic AI 기반 인사이트 추출 시스템 개발기

아이지에이웍스 AI 에이전트 클레어: Amazon Bedrock 기반 Text-to-SQL/Chart 에이전트로 이룬 데이터 분석 혁신 (Part 2)