
핵심요약
토스 ML Platform 팀은 ML 서비스의 효율적인 운영을 위해 Feature Store와 Trainkit을 개발하여 MLOps 학습 파이프라인을 자동화하고, 데이터 일관성 및 재현성을 확보하며 Training-Serving skew와 같은 복잡한 문제를 해결합니다.
Toss MLOps 플랫폼: Feature Store와 Trainkit을 통한 ML 학습 파이프라인 자동화
MLOps 인프라: Feature Store & Trainkit 개요
- 토스 ML Platform 팀은 ML 서비스의 안정적이고 유연한 MLOps 플랫폼을 구축하며 Feature Store, Model Registry, Training Pipeline, Model Serving 등의 핵심 컴포넌트를 운영합니다.
- 본 글은 모델 학습과 Feature 관리에 필수적인 Feature Store와 이를 활용한 학습 파이프라인 자동화 도구 Trainkit을 소개합니다.
- 이들 도구는 Training-Serving skew 방지, 실험 효율성 극대화, 재현성 보장 등 MLOps의 핵심 과제를 해결합니다.
Feature Store: ML 데이터의 중앙 집중식 관리 시스템
- Feature Store는 ML 데이터 품질 및 일관성 보장을 위한 시스템으로, 학습과 서빙에 동일한 Feature를 안정적으로 제공합니다.
- 토스 Feature Store는 Aerospike를 Online Storage로 사용하며, Feast의 Data Model을 참고하여 Entity, Feature, FeatureTable, FeatureService 개념을 도입했습니다.
- 자체 개발을 통해 토스 환경에 최적화된 Feature Quality Monitoring, 데이터 접근 및 권한 관리 기능을 제공합니다.
Trainkit: 학습 파이프라인 표준화 및 핵심 과제 해결
- Trainkit은 데이터 로딩부터 전처리, 배치 생성까지의 비효율(중복 코드, 재현성 저하)을 해결하며 학습 파이프라인을 표준화합니다.
- Feature Store와 강하게 결합하여 Data Module, Target, Feature Package, Feature Service, Feature Processor 구조를 통해 자동화를 구현합니다.
- 멀티 Feature Package 조인, Training-Serving Skew 해소를 위한 시간 Shift 기능, PIT(Point-In-Time) 조인을 런타임에 처리하여 정확하고 효율적인 Feature 생성을 지원합니다.