핵심요약
무신사는 폭증하는 AI 트래픽과 비용 문제를 해결하기 위해 온프레미스 GPU와 AWS EKS를 결합한 Hybrid 인프라를 구축했습니다. EKS Hybrid Node, Self-managed Karpenter, eBPF Cilium, Gateway API 등을 활용하여 네트워크를 최적화하고, 요청 가치에 따른 우선순위 라우팅을 도입하는 등 지속 가능한 AI 인프라를 구현했습니다.
무신사 AI 인프라 구축기: Hybrid 인프라, 네트워크 최적화 및 지속 가능한 AI
🚀 AI 인프라 구축의 필요성: 지속 가능성과 비용 문제
- AI 시장의 폭발적 성장과 함께 GPU 공급난, 운영비 증가로 인한 비용 부담 심화.
- SageMaker, Databricks 등 관리형 서비스는 트래픽 확장에 따라 비용이 기하급수적으로 증가 (월 1억 원 이상).
- 결론: 지속 가능한 AI 구축을 위해 온프레미스 GPU 운영을 반드시 고려해야 함.
🌌 "우리는 달에 가기로 했습니다."
- 폭발적인 트래픽 증가와 비용 문제 해결을 위한 근본적인 대책 필요.
- GPU 부족, 전력 인프라 미비 등 열악한 환경에도 불구하고, AI 기술 미래를 위한 과감한 투자 결정.
- CTO 승인 하에 GPU 확보, 전력 증설, 냉방 공사 등 대규모 인프라 재설계 시작.
💡 Hybrid 인프라 구축: 온프레미스 + AWS EKS
- 목표: 온프레미스와 AWS가 하나의 클러스터처럼 동작, GPU 부족 시 AWS 자동 확장, 한쪽 장애 시 반대편 자동 회귀, Zero interruption failover.
- 기술 선택: EKS Hybrid Node 기능 활용, 온프레미스 GPU와 EC2 자원을 통합 관리.
- 어려움: AWS CNI 미지원, Karpenter 커스터마이징, 네트워크 구성(eBPF Cilium 도입), 각종 Add-on 직접 구성 등 상당한 기술적 난관 봉착.
- 결과: 직접 아키텍처를 설계하고 구현하여 Hybrid Node 성공적으로 운영, AWS Summit 2025 발표.
🛠️ 아키텍처 개선 및 최적화
1. AutoMode → Self-managed Karpenter 전환
- 초기 AutoMode의 제약 극복 및 무한한 확장성 확보를 위해 Self-managed Karpenter 도입.
- Node scheduling mismatch, 라벨 충돌, Scaling loop 등 문제 해결.
2. Chaos Engineering: 운영 리스크 관리
- GPU 커널 오류, NVLink handshake failure, NIC 장애 등 다양한 온프레미스 인프라 장애 시나리오 테스트.
- AWS가 제공하는 운영 리스크 관리 비용의 가치 재확인.
3. 네트워크 최적화: 초저지연 AI Infra 구현
- kube-proxy → eBPF Cilium: iptable overhead 제거, 패킷 traversal path 감소.
- ALB → NLB 전환: Layer7 편의 기능 제거, 순수 성능 및 low latency 확보, HTTP3 지원.
- Sidecar 제거 → 단일 Dataplane: 리소스 오버헤드 제거.
- OpenTelemetry 기반 로깅/APM: 플랫폼 중립적인 관측 가능성 확보 (초기 8TB 로그 폭증 경험).
4. Gateway API 기반 Inference Extension 활용
- 우선순위 레이어링: 사용자 요청(Priority 0), 모델 업데이트(Priority 1), 관리형 요청(Priority 2) 등 요청 가치에 따른 트래픽 분산.
- 조건부 라우팅: 요청 우선순위에 따라 다른 모델 서빙 또는 처리 로직 적용.
- 실험 기반 최적화: 시스템 안정성 및 품질 향상을 위한 지속적인 실험과 측정.
📈 주요 성과
- 비용 절감: Hybrid Node 아키텍처를 통해 최대 95%의 비용 절감 효과 달성.
- 확장성 확보: 온프레미스와 클라우드 자원을 유연하게 활용하여 AI 서비스 확장.
- 안정성 강화: 네트워크 최적화 및 우선순위 라우팅을 통해 트래픽 폭주 상황에서도 안정적인 서비스 제공.
- 기술 리더십: Hybrid 인프라 구축 및 운영 경험을 바탕으로 기술 공유 및 업계 기여.
🌟 앞으로의 여정
- GPU Pooling, SLA-aware Multi-cluster routing, Observability 기반 자동 운영 시스템화, Blackwell 기반 대규모 inference optimization 등 지속적인 기술 개발 및 고도화 추진.