T
TechInsights
목록으로
Architecture•2026. 05. 22.

현대오토에버의 Amazon Bedrock으로 구축한 다중 AI 에이전트: 장애 대응 시간 5분으로 단축하기

AWS
AWS Engineering Team
AWS

핵심요약

원문 보기

현대오토에버 ErrorWatcher 팀은 LangGraph와 Amazon Bedrock을 활용하여 다중 AI 에이전트 기반의 지능형 장애 대응 시스템을 구축했습니다. 이 시스템은 장애 대응 시간을 수 시간에서 5분으로 단축시키고, 일관된 품질과 지식 자산화를 가능하게 합니다.

현대오토에버의 Amazon Bedrock으로 구축한 다중 AI 에이전트: 장애 대응 시간 5분으로 단축하기

배경: 반복되는 장애 대응에 AI 활용

  • 현대오토에버 차량제어서비스개발팀은 24시간 운영되는 커넥티드 서비스의 장애 대응에 수 시간이 소요되는 문제를 겪었습니다.
  • 해커톤에서 ErrorWatcher 팀은 생성형 AI(Generative AI)를 활용하여 이 문제를 해결하고, 장애 대응 시간을 수 시간에서 5분으로 단축하는 것을 목표로 했습니다.

ErrorWatcher 솔루션 개요

  • LangGraph 기반 다중 AI 에이전트 오케스트레이션 시스템으로, 장애 감지부터 원인 분석, 대응 방안 제시, 보고서 생성까지 전 과정을 자동화합니다.
  • 주요 에이전트: 이상징후 분석(Monitor), 근본원인 분석(Detective), 솔루션 아키텍트(Solver), 보고서 작성(Reporter) 역할을 수행합니다.

기술 스택 및 아키텍처

  • 핵심 기술: AWS Lambda, Amazon API Gateway, Amazon S3, Amazon Bedrock, LangGraph.
  • 에이전트 간 통신: LangGraph의 StateGraph를 활용하여 명확한 파이프라인 관리.
  • Knowledge Base 검색: 메타데이터 필터링 적용으로 관련 문서만 검색하여 정확도 및 효율성 증대.

핵심 구현 내용

  • LangGraph 기반 에이전트 상태 관리: TypedDict를 이용한 State 공유 및 워크플로우 실행.
  • 신뢰도 기반 자동 학습: HIGH 신뢰도 보고서 자동 저장 및 향후 분석에 활용.
  • 도메인별 전문가 프롬프트: Solver Agent가 DB, Infrastructure, Network 등 도메인에 맞춰 전문가 페르소나 적용.
  • 4단계 시스템 흐름: Monitor → Detective → Solver → Reporter 순으로 자동화된 장애 분석 및 보고서 생성.

프로젝트 효과 및 향후 계획

  • 도입 효과: MTTR 획기적 단축(수 시간 → 5분), 일관된 품질 보장, 무제한 확장성, 지식 자산화.
  • 향후 계획: 예방적 장애 대응(Proactive Monitoring), 자동화된 사내 장애 시스템 연계(Human-in-the-Loop), 사용자 접근성 강화(Teams Webhook 연동).
#Architecture#Infra#AI#BackEnd
AWS
AWS

AWS Engineering Team

기술 인사이트를 전달하는 공식 채널

You might also like

View all
2024 Frontend Global Workshop 참석 후기

2024 Frontend Global Workshop 참석 후기

Iceberg Low-Latency Queries with Materialized Views (feat. 실시간 거래 리포트)

Iceberg Low-Latency Queries with Materialized Views (feat. 실시간 거래 리포트)