핵심요약
카카오페이는 기존 AI 시스템의 비효율성을 해결하기 위해 Kubeflow 기반 AI 플랫폼을 구축했습니다. 이 플랫폼은 표준화된 개발 환경, 동적 자원 할당을 통한 확장성, 그리고 통합된 AI 개발 프로세스를 제공합니다.
카카오페이 AI 플랫폼 구축 여정: 하드웨어부터 코드까지
AI 플랫폼 구축 배경 및 문제점
- 기존 AI 시스템은 수작업에 의존하여 개발 속도 저해 및 서비스 안정성 위협
- 레거시 모델 서빙 프로세스는 모델 학습 후 MLflow 등록, ML 엔지니어의 수동 컨테이너 이미지 빌드 및 배포로 인력 개입이 필수적
- AI 기술 활용 및 서비스 적용에 필요한 표준화된 환경 부재가 핵심 문제
Kubeflow 기반 AI 플랫폼 아키텍처
- 온프레미스 환경에 쿠버네티스 기반 Kubeflow를 선택하여 운영 일관성 및 확장성 확보
- Kubeflow의 파이프라인 및 컨테이너 기술로 개발 환경 표준화 및 동일한 작업 흐름 보장
- 동적 자원 할당 및 오토스케일링을 통한 GPU 자원 낭비 최소화 및 확장성 구현
- AI 개발 전 과정 통합으로 인프라가 아닌 AI 모델 자체에 집중 가능한 환경 제공
기술적 난제 극복 및 구현 세부사항
- 고성능 AI 모델 학습을 위해 H200 GPU 및 RDMA, Infiniband 네트워크 도입
- 하이브리드 클러스터 구성: 이더넷 노드(일반 작업)와 인피니밴드 노드(GPU 학습) 분리, GPUDirect 활용하여 GPU 간 직접 통신 구현
- MIG(Multi-Instance GPU) 적용: 물리 GPU를 여러 논리적 GPU 인스턴스로 분할하여 GPU 활용률 극대화
- Knative의 Scale to Zero 기능은 콜드 스타트 문제로 최소 minReplicas 1 유지 정책 선택
- GPU 자원 최적화 전략: 사용처(학습/추론), 사용 모델, 모델 크기 기준에 맞춰 MIG 인스턴스 최적 할당
- 모니터링 지표: GPU 전체/유휴 자원, 리소스 사용량 현황을 통해 자원 효율성 지속 개선