핵심요약
NAVER Engineering Day 2026에서 발표된 내용을 요약한 글로, Karpathy Agent Loop를 적용하여 AI 에이전트가 코드를 자율적으로 수정, 빌드, 실험, 판정하는 과정을 통해 라이브 스트리밍 품질(QoE)을 17% 개선한 사례를 다룹니다.
AI 에이전트의 코드 실험 및 개선: NAVER Engineering Day 2026 발표 요약
개요
본 발표는 NAVER Engineering Day 2026에서 공개된 내용으로, Karpathy의 AutoResearch 방법론을 라이브 스트리밍 품질 개선에 적용한 사례를 다룹니다. AI 에이전트가 코드를 자율적으로 수정, 빌드, 실험, 판정하는 루프를 구축하여 스트리밍 품질(QoE)을 17% 개선한 과정을 공유합니다.
발표 대상
- 스트리밍/플레이어 개발자
- AI 에이전트를 코드 최적화에 활용하고자 하는 개발자
- ABR, QoE, LL-HLS 등 미디어 기술 입문자
주요 내용
EPISODE 1. 동기 및 문제 정의
- 라이브 스트리밍 시장의 저지연 요구사항과 학계 SOTA(State-of-the-Art)와 산업 현실 간의 괴리.
- hls.js의 EWMA(Exponentially Weighted Moving Average) 기반 성능 한계.
- QoE(Quality of Experience) 지표를 실험의 유일한 평가 기준으로 설정.
- 수동 튜닝에 드는 높은 비용.
EPISODE 2. AI 에이전트 구축 방법론
- Karpathy Agent Loop: AI 에이전트가 자율적으로 코드를 수정, 빌드, 실험, 판정하는 9단계 계층적 검증 루프를 설계했습니다.
- 7가지 비타협 원칙: AI 에이전트 개발 시 타협하지 않은 핵심 원칙들을 적용했습니다.
- Regression Guard: 통계적 엄격성을 유지하고 Context Rot(문맥 순환)을 방지하는 시스템을 도입했습니다.
- 에이전트의 3중 기억 장치: 에이전트의 기억 능력을 강화하기 위한 구조를 설명합니다.
- 실험 인프라: AI 에이전트의 실험을 지원하는 인프라를 소개합니다.
EPISODE 3. 실험 과정 및 분석
- 실험의 전체 Iteration 맵을 시각화하여 진행 과정을 보여줍니다.
- 주요 성공 사례(Keep)와 실패 사례(Fail)를 분석합니다.
- 실험 중 발생한 HALT 케이스(중단된 경우)를 분석합니다.
EPISODE 4. 결과 및 향후 계획
- 최종 결과: 7개 전체 시나리오에서 QoE 개선을 달성했습니다.
- 효율성: 5시간의 사람 투입 대비 60시간의 AI 투입으로 12배의 레버리지를 창출했습니다.
- 한계 및 다음 단계: 현재 결과의 한계를 명시하고 향후 발전 방향을 제시합니다.
- Take-away: 이번 프로젝트를 통해 얻은 핵심 교훈을 요약합니다.
NAVER Engineering Day
- NAVER Engineering Day는 사내 개발 경험 및 기술 트렌드를 교류하는 행사로, 2016년부터 시작되어 평균 100개 이상의 발표가 이루어지는 네이버의 대표적인 개발자 행사입니다.
네이버 D2