Infra•2025. 12. 15.

우리는 달에 가기로 했습니다. - Hybrid인프라부터 네트워크 최적화까지, 무신사 AI Infra구축기

무신사 Engineering Team

무신사

핵심요약

무신사는 폭증하는 AI 트래픽과 비용 문제를 해결하기 위해 온프레미스 GPU와 AWS EKS를 결합한 Hybrid 인프라를 구축했습니다. EKS Hybrid Node, Self-managed Karpenter, eBPF Cilium, Gateway API 등을 활용하여 네트워크를 최적화하고, 요청 가치에 따른 우선순위 라우팅을 도입하는 등 지속 가능한 AI 인프라를 구현했습니다.

무신사 AI 인프라 구축기: Hybrid 인프라, 네트워크 최적화 및 지속 가능한 AI

🚀 AI 인프라 구축의 필요성: 지속 가능성과 비용 문제

AI 시장의 폭발적 성장과 함께 GPU 공급난, 운영비 증가로 인한 비용 부담 심화.
SageMaker, Databricks 등 관리형 서비스는 트래픽 확장에 따라 비용이 기하급수적으로 증가 (월 1억 원 이상).
결론: 지속 가능한 AI 구축을 위해 온프레미스 GPU 운영을 반드시 고려해야 함.

🌌 "우리는 달에 가기로 했습니다."

폭발적인 트래픽 증가와 비용 문제 해결을 위한 근본적인 대책 필요.
GPU 부족, 전력 인프라 미비 등 열악한 환경에도 불구하고, AI 기술 미래를 위한 과감한 투자 결정.
CTO 승인 하에 GPU 확보, 전력 증설, 냉방 공사 등 대규모 인프라 재설계 시작.

💡 Hybrid 인프라 구축: 온프레미스 + AWS EKS

목표: 온프레미스와 AWS가 하나의 클러스터처럼 동작, GPU 부족 시 AWS 자동 확장, 한쪽 장애 시 반대편 자동 회귀, Zero interruption failover.
기술 선택: EKS Hybrid Node 기능 활용, 온프레미스 GPU와 EC2 자원을 통합 관리.
어려움: AWS CNI 미지원, Karpenter 커스터마이징, 네트워크 구성(eBPF Cilium 도입), 각종 Add-on 직접 구성 등 상당한 기술적 난관 봉착.
결과: 직접 아키텍처를 설계하고 구현하여 Hybrid Node 성공적으로 운영, AWS Summit 2025 발표.

🛠️ 아키텍처 개선 및 최적화

1. AutoMode → Self-managed Karpenter 전환

초기 AutoMode의 제약 극복 및 무한한 확장성 확보를 위해 Self-managed Karpenter 도입.
Node scheduling mismatch, 라벨 충돌, Scaling loop 등 문제 해결.

2. Chaos Engineering: 운영 리스크 관리

GPU 커널 오류, NVLink handshake failure, NIC 장애 등 다양한 온프레미스 인프라 장애 시나리오 테스트.
AWS가 제공하는 운영 리스크 관리 비용의 가치 재확인.

3. 네트워크 최적화: 초저지연 AI Infra 구현

kube-proxy → eBPF Cilium: iptable overhead 제거, 패킷 traversal path 감소.
ALB → NLB 전환: Layer7 편의 기능 제거, 순수 성능 및 low latency 확보, HTTP3 지원.
Sidecar 제거 → 단일 Dataplane: 리소스 오버헤드 제거.
OpenTelemetry 기반 로깅/APM: 플랫폼 중립적인 관측 가능성 확보 (초기 8TB 로그 폭증 경험).

4. Gateway API 기반 Inference Extension 활용

우선순위 레이어링: 사용자 요청(Priority 0), 모델 업데이트(Priority 1), 관리형 요청(Priority 2) 등 요청 가치에 따른 트래픽 분산.
조건부 라우팅: 요청 우선순위에 따라 다른 모델 서빙 또는 처리 로직 적용.
실험 기반 최적화: 시스템 안정성 및 품질 향상을 위한 지속적인 실험과 측정.

📈 주요 성과

비용 절감: Hybrid Node 아키텍처를 통해 최대 95%의 비용 절감 효과 달성.
확장성 확보: 온프레미스와 클라우드 자원을 유연하게 활용하여 AI 서비스 확장.
안정성 강화: 네트워크 최적화 및 우선순위 라우팅을 통해 트래픽 폭주 상황에서도 안정적인 서비스 제공.
기술 리더십: Hybrid 인프라 구축 및 운영 경험을 바탕으로 기술 공유 및 업계 기여.

🌟 앞으로의 여정

GPU Pooling, SLA-aware Multi-cluster routing, Observability 기반 자동 운영 시스템화, Blackwell 기반 대규모 inference optimization 등 지속적인 기술 개발 및 고도화 추진.

#Infra #AI #Architecture

무신사

무신사 Engineering Team

기술 인사이트를 전달하는 공식 채널

You might also like

Amazon Braket 콘솔 소개 및 Amazon Braket에서 양자 회로를 실행하는 방법 -1

양자 컴퓨팅이란 무엇인가? – Part 7: 하이브리드 접근법, 양자 연산이 구현되는 여정