AI•2025. 11. 28.

왜 막상 배포하면 효과가 없지? 타겟 지표에 맞는 ML모델 train/eval 설계하기

하이퍼커넥트 Engineering Team

왜 막상 배포하면 효과가 없지? 타겟 지표에 맞는 ML모델 train/eval 설계하기

핵심요약

ML 모델의 실제 서비스 배포 시 효과를 극대화하기 위해, 비즈니스 목표에 부합하는 학습/평가 지표를 설계하고, 데이터 수집 환경의 통계적 특성을 고려한 item-wise attribute CR ranking 기법을 통해 전환율을 성공적으로 개선한 사례입니다.

ML 모델의 실제 서비스 임팩트 최적화를 위한 학습/평가 설계

ML 문제 정의 및 데이터셋 구축

실제 서비스의 전환율을 극대화하기 위해, 아이템별 최적 대표 속성(primary attribute) 예측 모델 개발이 목표입니다.
초기 supervised learning 방식은 추천 로직에 의한 user-item 독립성 붕괴, 아이템 자체 프로필 영향 등의 교란 변수(confounder) 문제에 직면했습니다.
item-wise attribute CR ranking 방식으로 문제 정의를 발전시켰고, **랜덤하게 수집된 데이터(attribute shuffle)**를 활용하여 교란 변수의 인과적 영향을 제거했습니다.

학습 목표 및 모델 구현

모델은 동일 아이템 내에서 어떤 속성이 더 높은 전환율을 보일지 예측하는 랭킹(ranking) 문제로 정의됩니다.
학습 데이터셋은 attribute shuffle 데이터에서 생성된 pairwise 속성 쌍으로 구성되며, 실제 전환율이 높은 속성을 first attribute로 라벨링합니다.
Negative log likelihood 기반의 랭킹 손실(ranking loss) 함수를 사용하여, 두 속성 간 score 차이를 통해 전환 확률을 모델링하고 최적화합니다.

오프라인 평가 지표 설계 및 최적화

기존 Mean SRCC, Top-1 accuracy는 관찰된 전환율의 노이즈와 비즈니스 임팩트를 반영하지 못하는 한계가 있었습니다.
Relative mean conversion-rate lift 지표를 도입하여 온라인 A/B 테스트를 오프라인에서 시뮬레이션하고 직접적인 비즈니스 임팩트를 측정합니다.
최대화 편향(maximization bias)을 회피하기 위해 Double DQN 아이디어를 활용, optimal 성능의 lower bound를 추정하여 모델의 개선 여지를 파악했습니다.

실험 결과 및 성공적인 배포

오프라인 평가에서 모델은 최적 성능의 하한에 근접하는 우수한 **mean CR lift**를 달성했습니다.
대규모 온라인 A/B 테스트를 통해 프로덕션 환경에서 유의미한 전환율 상승과 핵심 비즈니스 지표 개선이 확인되었습니다.
이는 문제 정의, 학습 목표, 평가 지표 설계가 비즈니스 목표와 긴밀히 연관될 때 실제적인 ML 임팩트를 창출할 수 있음을 입증합니다.

#AI #Architecture

하이퍼커넥트

하이퍼커넥트 Engineering Team

기술 인사이트를 전달하는 공식 채널

You might also like

Amazon Braket 콘솔 소개 및 Amazon Braket에서 양자 회로를 실행하는 방법 -1

양자 컴퓨팅이란 무엇인가? – Part 7: 하이브리드 접근법, 양자 연산이 구현되는 여정