AI•2025. 08. 14.

토스가 다양한 ML 모델을 만드는 법: Feature Store & Trainkit

토스 Engineering Team

토스가 다양한 ML 모델을 만드는 법: Feature Store & Trainkit

핵심요약

토스 ML Platform 팀은 ML 서비스의 효율적인 운영을 위해 Feature Store와 Trainkit을 개발하여 MLOps 학습 파이프라인을 자동화하고, 데이터 일관성 및 재현성을 확보하며 Training-Serving skew와 같은 복잡한 문제를 해결합니다.

Toss MLOps 플랫폼: Feature Store와 Trainkit을 통한 ML 학습 파이프라인 자동화

MLOps 인프라: Feature Store & Trainkit 개요

토스 ML Platform 팀은 ML 서비스의 안정적이고 유연한 MLOps 플랫폼을 구축하며 Feature Store, Model Registry, Training Pipeline, Model Serving 등의 핵심 컴포넌트를 운영합니다.
본 글은 모델 학습과 Feature 관리에 필수적인 Feature Store와 이를 활용한 학습 파이프라인 자동화 도구 Trainkit을 소개합니다.
이들 도구는 Training-Serving skew 방지, 실험 효율성 극대화, 재현성 보장 등 MLOps의 핵심 과제를 해결합니다.

Feature Store: ML 데이터의 중앙 집중식 관리 시스템

Feature Store는 ML 데이터 품질 및 일관성 보장을 위한 시스템으로, 학습과 서빙에 동일한 Feature를 안정적으로 제공합니다.
토스 Feature Store는 Aerospike를 Online Storage로 사용하며, Feast의 Data Model을 참고하여 Entity, Feature, FeatureTable, FeatureService 개념을 도입했습니다.
자체 개발을 통해 토스 환경에 최적화된 Feature Quality Monitoring, 데이터 접근 및 권한 관리 기능을 제공합니다.

Trainkit: 학습 파이프라인 표준화 및 핵심 과제 해결

Trainkit은 데이터 로딩부터 전처리, 배치 생성까지의 비효율(중복 코드, 재현성 저하)을 해결하며 학습 파이프라인을 표준화합니다.
Feature Store와 강하게 결합하여 Data Module, Target, Feature Package, Feature Service, Feature Processor 구조를 통해 자동화를 구현합니다.
멀티 Feature Package 조인, Training-Serving Skew 해소를 위한 시간 Shift 기능, PIT(Point-In-Time) 조인을 런타임에 처리하여 정확하고 효율적인 Feature 생성을 지원합니다.

#AI #BackEnd #Infra

토스

토스 Engineering Team

기술 인사이트를 전달하는 공식 채널

You might also like

아이지에이웍스 AI 에이전트 클레어: Amazon Bedrock 기반 Text-to-SQL/Chart 에이전트로 이룬 데이터 분석 혁신

100년 가는 프론트엔드 코드, SDK