T
TechInsights
목록으로
AI•2026. 05. 22.

현대오토에버의 Amazon Bedrock으로 구축한 빅데이터 클러스터 장애 대응 자동화 에이전트 구축기

AWS
AWS Engineering Team
AWS

핵심요약

원문 보기

현대오토에버 데이터플랫폼기술팀은 LangGraph, Amazon OpenSearch Service, Amazon Bedrock을 활용하여 빅데이터 클러스터 장애 대응을 자동화하는 AI 에이전트를 구축했습니다. 이 시스템은 병렬 RCA, 자체 반증, Human-in-the-Loop 방식을 통해 장애 대응의 MTTA 단축, 품질 표준화, 지식 자산화를 달성했습니다.

현대오토에버의 Amazon Bedrock으로 구축한 빅데이터 클러스터 장애 대응 자동화 에이전트 구축기

장애 대응 생명 주기와 도전 과제

  • 장애 대응은 Detection, Investigation, Recovery, Post-Incident Review, Improve의 5단계로 이루어지며, 시간 확보, 품질 균등성, 원인 추적 정확성 등의 도전 과제가 존재합니다.
  • 현대오토에버 데이터플랫폼기술팀은 엔지니어가 더 빠르고 정확하게 판단하도록 돕는 AI 에이전트 구축을 목표로 했습니다.

배경: 기존 빅데이터 클러스터 장애 대응 프로세스의 한계

  • 기존 프로세스는 알림마다 수작업이 많고, 담당 엔지니어의 숙련도에 따라 품질이 달라지는 한계가 있었습니다.
  • 핵심 목표: MTTA 단축, 품질 표준화, 지식 자산화.

기술 스택 선택

  • Workflow Orchestration: LangGraph (StateGraph 기반 복잡한 워크플로우 설계, Checkpointing 지원).
  • 로그 검색·집계: Amazon OpenSearch Service (Query DSL 기반 유연한 로그 탐색 및 분석).
  • LLM 런타임: Amazon Bedrock (다양한 Foundation Model을 단일 API로 호출).

전체 아키텍처

  • VDI Agent와 Main Agent Server로 구성.
  • Outlook Monitor가 알림 감지 → FastAPI Gateway → LangGraph Orchestrator 실행 → OpenSearch, Bedrock 활용 → Teams Agent로 알림 및 Q&A 제공.

LangGraph Workflow 설계

  • 14개 에이전트(노드)로 구성된 StateGraph.
  • 4단계: 분류·진단, 분석·검증, 복구·승인·실행, 보고·학습.
  • 핵심 구현: 상태 스키마 설계(델타 반환, Reducer Merge), Coordinator(알림 분류/메타 검증), State Checker(반복 SSH 탐색), Log Investigator(3단계 로그 분석), 병렬 RCA + 자체 반증(Falsification) + Reflector 교차 검증.

핵심 구현 포인트

  • 상태 스키마: TypedDict와 Reducer Merge로 병렬 실행 상태 충돌 방지, PostgresSaver로 Checkpointing 구현.
  • Coordinator: LLM 분류와 Meta DB 검증으로 알림 처리 여부 결정.
  • State Checker: Ambari API 및 SSH 진단을 반복 수행하며, LLM으로 진단 계획 생성 및 Deduplication 적용.
  • Log Investigator: OpenSearch 집계로 우선순위 결정, LLM으로 SearchIntent 생성 및 Triage/Summarize 단계로 비용 최적화.
  • 병렬 RCA: 서로 다른 Bedrock 모델로 독립 분석 및 반증 생성, Reflector가 교차 검증하여 최종 신뢰도 산출.

운영 안정성과 보안 설계

  • Human-in-the-Loop: 복구 실행은 운영자 승인 후 수행, 비파괴적 명령만 자동 실행.
  • 내결함성: Checkpoint 기반으로 프로세스 재시작 시 마지막 상태에서 재개.

도입 효과 및 향후 고도화

  • 도입 효과: MTTA 단축, 품질 표준화, 지식 자산화 달성.
  • 향후 고도화: 유사 Incident 검색(RAG), 인시던트 상관분석, 예방적 개선, Bedrock 모델 라우팅 자동화, AgentCore 활용 검토.
#AI#BigData#Architecture#BackEnd#Infra
AWS
AWS

AWS Engineering Team

기술 인사이트를 전달하는 공식 채널

You might also like

View all
2024 Frontend Global Workshop 참석 후기

2024 Frontend Global Workshop 참석 후기

Iceberg Low-Latency Queries with Materialized Views (feat. 실시간 거래 리포트)

Iceberg Low-Latency Queries with Materialized Views (feat. 실시간 거래 리포트)