핵심요약
현대오토에버 ErrorWatcher 팀은 LangGraph와 Amazon Bedrock을 활용하여 다중 AI 에이전트 기반의 지능형 장애 대응 시스템을 구축했습니다. 이 시스템은 장애 대응 시간을 수 시간에서 5분으로 단축시키고, 일관된 품질과 지식 자산화를 가능하게 합니다.
현대오토에버의 Amazon Bedrock으로 구축한 다중 AI 에이전트: 장애 대응 시간 5분으로 단축하기
배경: 반복되는 장애 대응에 AI 활용
- 현대오토에버 차량제어서비스개발팀은 24시간 운영되는 커넥티드 서비스의 장애 대응에 수 시간이 소요되는 문제를 겪었습니다.
- 해커톤에서 ErrorWatcher 팀은 생성형 AI(Generative AI)를 활용하여 이 문제를 해결하고, 장애 대응 시간을 수 시간에서 5분으로 단축하는 것을 목표로 했습니다.
ErrorWatcher 솔루션 개요
- LangGraph 기반 다중 AI 에이전트 오케스트레이션 시스템으로, 장애 감지부터 원인 분석, 대응 방안 제시, 보고서 생성까지 전 과정을 자동화합니다.
- 주요 에이전트: 이상징후 분석(Monitor), 근본원인 분석(Detective), 솔루션 아키텍트(Solver), 보고서 작성(Reporter) 역할을 수행합니다.
기술 스택 및 아키텍처
- 핵심 기술: AWS Lambda, Amazon API Gateway, Amazon S3, Amazon Bedrock, LangGraph.
- 에이전트 간 통신: LangGraph의 StateGraph를 활용하여 명확한 파이프라인 관리.
- Knowledge Base 검색: 메타데이터 필터링 적용으로 관련 문서만 검색하여 정확도 및 효율성 증대.
핵심 구현 내용
- LangGraph 기반 에이전트 상태 관리: TypedDict를 이용한 State 공유 및 워크플로우 실행.
- 신뢰도 기반 자동 학습: HIGH 신뢰도 보고서 자동 저장 및 향후 분석에 활용.
- 도메인별 전문가 프롬프트: Solver Agent가 DB, Infrastructure, Network 등 도메인에 맞춰 전문가 페르소나 적용.
- 4단계 시스템 흐름: Monitor → Detective → Solver → Reporter 순으로 자동화된 장애 분석 및 보고서 생성.
프로젝트 효과 및 향후 계획
- 도입 효과: MTTR 획기적 단축(수 시간 → 5분), 일관된 품질 보장, 무제한 확장성, 지식 자산화.
- 향후 계획: 예방적 장애 대응(Proactive Monitoring), 자동화된 사내 장애 시스템 연계(Human-in-the-Loop), 사용자 접근성 강화(Teams Webhook 연동).