
핵심요약
이 글은 SSG 가격최적화 프로덕트가 Dynamic Pricing 모델을 선택하는 과정에서 겪었던 MAB 알고리즘의 한계점과 이를 극복하기 위해 도입한 Regret 기반의 새로운 접근법, 그리고 그에 따른 장점과 한계를 상세히 설명합니다.
Dynamic Pricing 모델 선택 문제 해결 전략
기존 MAB 기반 가격 결정 방식 및 한계
- SSG의 가격최적화 프로덕트는 MAB (Multi-Armed Bandit) 알고리즘의 톰슨 샘플링을 활용하여 상품별 최적 가격 모델을 선택해왔습니다.
- 이 방식은 판매 데이터를 기반으로 동적으로 학습하며 **탐색과 활용(Exploration & Exploitation)**을 수행하고, 계산 효율성이 뛰어난 장점이 있습니다.
- 그러나 탐색 시간 부족, 비용(할인 예산) 무시, Non-stationary 환경에서의 수렴 문제 등 여러 한계에 직면했습니다.
- 이에 상품 특성 기반 그룹화, 예산/수익성을 고려한 목적함수 도입, Adaptive window를 통한 경험 관리 등으로 대응했습니다.
Regret 기반의 새로운 가격 결정 접근법
- MAB의 한계, 특히 그룹화로 인한 개별 상품 평가의 부정확성을 해결하기 위해 Regret 기반의 새로운 접근법을 도입했습니다.
- 핵심 목표는 개별 상품 단위로 모델 성능을 평가하여 기민하게 가격에 대응하는 것입니다.
- **HR (High Regret)**은 비싸게 팔아 판매 기회를 놓친 후회, **LR (Low Regret)**은 싸게 팔아 이익을 덜 본 후회를 의미하며, 이들을 조합한 Score로 모델을 평가합니다.
- 이 방식은 전시되지 않은 가격에 대해서도 모델 평가가 가능하여 **경험량(데이터)**을 10배 이상 증대시키고, 상품별 유연한 운영을 가능하게 했습니다.
Regret 방식의 상세 분석 및 한계
- Longtail 속성별 모델 평균 할인율과 HR, LR 값을 분석하여 개별 상품 단위 평가의 효과를 확인했습니다.
- 평균 할인율이 같더라도 상품별 Regret이 상이하여 개별 상품별 모델 성능 평가가 의도대로 진행됨을 입증했습니다.
- Regret 도입 후 모델의 적합도를 상품별로 평가할 수 있게 되어 기존 대비 가격 변경 상품 비율이 증가했습니다.
- 하지만 판매 수량(ord_qty) 미고려, 노이즈 취약성, 데이터 부족(특히 롱테일 상품), 가격-판매량 비례하지 않는 상품군에서의 평가 부적절 등의 한계가 존재합니다.
- 현재 UV(상품 상세페이지 방문) 데이터 활용 및 Adaptive Window 도입 등을 통해 한계를 극복하려 노력하고 있습니다.
SSG TECH