T
Tech Insights
HomeCategoriesCompanies
홈
현재 페이지
토스 Next ML Challenge - 광고 클릭 예측(PCTR) ML 경진대회 출제 후기

토스 Next ML Challenge - 광고 클릭 예측(PCTR) ML 경진대회 출제 후기

토스
2025년 12월 2일
약 4분
토스 Next ML Challenge - 광고 클릭 예측(PCTR) ML 경진대회 출제 후기
AI 요약

Toss Next ML Challenge: 광고 클릭 예측 모델 개발 및 인사이트

챌린지 개요 및 목표

  • 토스 광고 플랫폼에서 주최한 Toss Next ML Challenge는 실제 서비스 데이터를 활용한 광고 클릭 예측(CTR) 모델 개발을 목표로 진행되었습니다.
  • 대회의 핵심은 토스 앱 내 광고 데이터를 기반으로 사용자의 클릭 확률을 빠르고 정확하게 예측하는 ML 알고리즘을 설계하는 것이었습니다.
  • 예선과 본선 두 단계로 진행되었으며, 2,600명 이상의 참가자가 몰려 ML 엔지니어 역량 발굴의 장이 되었습니다.

문제 데이터셋 설계 및 기술적 도전

  • 문제 데이터셋은 약 1,070만 건의 트레이닝 샘플과 성별, 연령대, 광고 지면 ID, 시간, 과거 인기 정보 등 다양한 익명화된 피처를 포함했습니다.
  • 초기에는 다수의 테이블을 통한 Feature Engineering을 유도했으나, 데이터 익명화 및 외부 반출의 어려움으로 한 개의 정형 테이블로 가공하여 제공되었습니다.
  • 실시간 서빙 가능성을 가점 사항으로 두어, 모델의 효율적인 추론(Inference) 및 ML 시스템 설계 역량을 참가자들이 직접 경험하도록 했습니다.
  • 특히 처리하기 부담스러운 속성의 Sequence 피처 한 개를 의도적으로 포함하여 참가자들의 심층적인 분석과 해결을 유도했습니다.

참가자들의 주요 문제 해결 전략 및 성과

  • 리더보드 상위 팀들은 Boosting Tree 계열 모델과 Deep Learning을 결합한 앙상블(Ensemble) 전략을 주로 사용했습니다.
  • 데이터 기반 가설 설정과 검증을 통한 EDA (Exploratory Data Analysis) 및 정량적 Feature Engineering에 많은 노력을 기울였습니다.
  • **리더보드와 정렬(align)**되는 Validation Strategy를 논리적으로 잘 구성하여 오프라인 실험 결과의 신뢰도를 높였습니다.
  • Sequence 피처를 효과적으로 활용하여 37개에 달하는 파생 변수를 생성하는 집요한 Feature Engineering 역량이 돋보였습니다.
  • 일부 팀은 260개의 모델을 앙상블하는 창의적인 접근 방식을 통해 실시간 서빙 환경에서의 적정 앙상블에 대한 새로운 관점을 제시했습니다.

챌린지를 통한 시사점 및 미래 방향

  • 이번 챌린지는 도메인 지식의 제약 속에서도 참가자들이 데이터 분석과 실험을 통해 뛰어난 ML 모델 개발 성과를 창출할 수 있음을 입증했습니다.
  • 참가자들의 열정, 창의성, 문제 해결 능력은 출제자에게도 깊은 영감을 주었으며, 특히 Sequence 피처 처리와 대규모 앙상블 접근 방식이 인상 깊었습니다.
  • 토스는 앞으로도 ML 엔지니어들과 함께 실제 비즈니스 문제를 해결하고 성장할 수 있는 지속적인 기회를 만들어 나갈 예정입니다.
원문 보기

태그

토스기술