T
TechInsights
목록으로
Infra•2025. 11. 12.

AI 플랫폼 GPU 도입부터 Kubeflow까지 도입기

카카오 페이
카카오 페이 Engineering Team
AI 플랫폼 GPU 도입부터 Kubeflow까지 도입기

핵심요약

원문 보기

카카오페이는 기존 AI 시스템의 비효율성을 해결하기 위해 Kubeflow 기반 AI 플랫폼을 구축했습니다. 이 플랫폼은 표준화된 개발 환경, 동적 자원 할당을 통한 확장성, 그리고 통합된 AI 개발 프로세스를 제공합니다.

카카오페이 AI 플랫폼 구축 여정: 하드웨어부터 코드까지

AI 플랫폼 구축 배경 및 문제점

  • 기존 AI 시스템은 수작업에 의존하여 개발 속도 저해 및 서비스 안정성 위협
  • 레거시 모델 서빙 프로세스는 모델 학습 후 MLflow 등록, ML 엔지니어의 수동 컨테이너 이미지 빌드 및 배포로 인력 개입이 필수적
  • AI 기술 활용 및 서비스 적용에 필요한 표준화된 환경 부재가 핵심 문제

Kubeflow 기반 AI 플랫폼 아키텍처

  • 온프레미스 환경에 쿠버네티스 기반 Kubeflow를 선택하여 운영 일관성 및 확장성 확보
  • Kubeflow의 파이프라인 및 컨테이너 기술로 개발 환경 표준화 및 동일한 작업 흐름 보장
  • 동적 자원 할당 및 오토스케일링을 통한 GPU 자원 낭비 최소화 및 확장성 구현
  • AI 개발 전 과정 통합으로 인프라가 아닌 AI 모델 자체에 집중 가능한 환경 제공

기술적 난제 극복 및 구현 세부사항

  • 고성능 AI 모델 학습을 위해 H200 GPU 및 RDMA, Infiniband 네트워크 도입
  • 하이브리드 클러스터 구성: 이더넷 노드(일반 작업)와 인피니밴드 노드(GPU 학습) 분리, GPUDirect 활용하여 GPU 간 직접 통신 구현
  • MIG(Multi-Instance GPU) 적용: 물리 GPU를 여러 논리적 GPU 인스턴스로 분할하여 GPU 활용률 극대화
  • Knative의 Scale to Zero 기능은 콜드 스타트 문제로 최소 minReplicas 1 유지 정책 선택
  • GPU 자원 최적화 전략: 사용처(학습/추론), 사용 모델, 모델 크기 기준에 맞춰 MIG 인스턴스 최적 할당
  • 모니터링 지표: GPU 전체/유휴 자원, 리소스 사용량 현황을 통해 자원 효율성 지속 개선
#Infra#AI
카카오 페이
카카오 페이

카카오 페이 Engineering Team

기술 인사이트를 전달하는 공식 채널

You might also like

View all
토스 피플 : 새로운 길을 만들 땐 내 선택을 믿는다

토스 피플 : 새로운 길을 만들 땐 내 선택을 믿는다

"이 버튼 왜 안 눌려요?" 물류 현장의 목소리로 PDA 시스템 완성하기

"이 버튼 왜 안 눌려요?" 물류 현장의 목소리로 PDA 시스템 완성하기