카카오페이 AI 플랫폼 구축 여정: 하드웨어부터 코드까지

AI 플랫폼 구축 배경 및 문제점

기존 AI 시스템은 수작업에 의존하여 개발 속도 저해 및 서비스 안정성 위협
레거시 모델 서빙 프로세스는 모델 학습 후 MLflow 등록, ML 엔지니어의 수동 컨테이너 이미지 빌드 및 배포로 인력 개입이 필수적
AI 기술 활용 및 서비스 적용에 필요한 표준화된 환경 부재가 핵심 문제

고성능 AI 모델 학습을 위해 H200 GPU 및 RDMA, Infiniband 네트워크 도입
하이브리드 클러스터 구성: 이더넷 노드(일반 작업)와 인피니밴드 노드(GPU 학습) 분리, GPUDirect 활용하여 GPU 간 직접 통신 구현
MIG(Multi-Instance GPU) 적용: 물리 GPU를 여러 논리적 GPU 인스턴스로 분할하여 GPU 활용률 극대화
Knative의 Scale to Zero 기능은 콜드 스타트 문제로 최소 minReplicas 1 유지 정책 선택
GPU 자원 최적화 전략: 사용처(학습/추론), 사용 모델, 모델 크기 기준에 맞춰 MIG 인스턴스 최적 할당
모니터링 지표: GPU 전체/유휴 자원, 리소스 사용량 현황을 통해 자원 효율성 지속 개선