BackEnd•2026. 06. 01.

AI 에이전트가 코드를 실험하고 개선하는 법

네이버 D2 Engineering Team

네이버 D2

핵심요약

NAVER Engineering Day 2026에서 발표된 내용을 요약한 글로, Karpathy Agent Loop를 적용하여 AI 에이전트가 코드를 자율적으로 수정, 빌드, 실험, 판정하는 과정을 통해 라이브 스트리밍 품질(QoE)을 17% 개선한 사례를 다룹니다.

AI 에이전트의 코드 실험 및 개선: NAVER Engineering Day 2026 발표 요약

개요

본 발표는 NAVER Engineering Day 2026에서 공개된 내용으로, Karpathy의 AutoResearch 방법론을 라이브 스트리밍 품질 개선에 적용한 사례를 다룹니다. AI 에이전트가 코드를 자율적으로 수정, 빌드, 실험, 판정하는 루프를 구축하여 스트리밍 품질(QoE)을 17% 개선한 과정을 공유합니다.

발표 대상

스트리밍/플레이어 개발자
AI 에이전트를 코드 최적화에 활용하고자 하는 개발자
ABR, QoE, LL-HLS 등 미디어 기술 입문자

주요 내용

EPISODE 1. 동기 및 문제 정의

라이브 스트리밍 시장의 저지연 요구사항과 학계 SOTA(State-of-the-Art)와 산업 현실 간의 괴리.
hls.js의 EWMA(Exponentially Weighted Moving Average) 기반 성능 한계.
QoE(Quality of Experience) 지표를 실험의 유일한 평가 기준으로 설정.
수동 튜닝에 드는 높은 비용.

EPISODE 2. AI 에이전트 구축 방법론

Karpathy Agent Loop: AI 에이전트가 자율적으로 코드를 수정, 빌드, 실험, 판정하는 9단계 계층적 검증 루프를 설계했습니다.
7가지 비타협 원칙: AI 에이전트 개발 시 타협하지 않은 핵심 원칙들을 적용했습니다.
Regression Guard: 통계적 엄격성을 유지하고 Context Rot(문맥 순환)을 방지하는 시스템을 도입했습니다.
에이전트의 3중 기억 장치: 에이전트의 기억 능력을 강화하기 위한 구조를 설명합니다.
실험 인프라: AI 에이전트의 실험을 지원하는 인프라를 소개합니다.

EPISODE 3. 실험 과정 및 분석

실험의 전체 Iteration 맵을 시각화하여 진행 과정을 보여줍니다.
주요 성공 사례(Keep)와 실패 사례(Fail)를 분석합니다.
실험 중 발생한 HALT 케이스(중단된 경우)를 분석합니다.

EPISODE 4. 결과 및 향후 계획

최종 결과: 7개 전체 시나리오에서 QoE 개선을 달성했습니다.
효율성: 5시간의 사람 투입 대비 60시간의 AI 투입으로 12배의 레버리지를 창출했습니다.
한계 및 다음 단계: 현재 결과의 한계를 명시하고 향후 발전 방향을 제시합니다.
Take-away: 이번 프로젝트를 통해 얻은 핵심 교훈을 요약합니다.

NAVER Engineering Day

NAVER Engineering Day는 사내 개발 경험 및 기술 트렌드를 교류하는 행사로, 2016년부터 시작되어 평균 100개 이상의 발표가 이루어지는 네이버의 대표적인 개발자 행사입니다.

#BackEnd #Architecture #AI

네이버 D2

네이버 D2 Engineering Team

기술 인사이트를 전달하는 공식 채널

You might also like

Amazon Braket 콘솔 소개 및 Amazon Braket에서 양자 회로를 실행하는 방법 -1

양자 컴퓨팅이란 무엇인가? – Part 7: 하이브리드 접근법, 양자 연산이 구현되는 여정