핵심요약
현대오토에버 데이터플랫폼기술팀은 LangGraph, Amazon OpenSearch Service, Amazon Bedrock을 활용하여 빅데이터 클러스터 장애 대응을 자동화하는 AI 에이전트를 구축했습니다. 이 시스템은 병렬 RCA, 자체 반증, Human-in-the-Loop 방식을 통해 장애 대응의 MTTA 단축, 품질 표준화, 지식 자산화를 달성했습니다.
현대오토에버의 Amazon Bedrock으로 구축한 빅데이터 클러스터 장애 대응 자동화 에이전트 구축기
장애 대응 생명 주기와 도전 과제
- 장애 대응은 Detection, Investigation, Recovery, Post-Incident Review, Improve의 5단계로 이루어지며, 시간 확보, 품질 균등성, 원인 추적 정확성 등의 도전 과제가 존재합니다.
- 현대오토에버 데이터플랫폼기술팀은 엔지니어가 더 빠르고 정확하게 판단하도록 돕는 AI 에이전트 구축을 목표로 했습니다.
배경: 기존 빅데이터 클러스터 장애 대응 프로세스의 한계
- 기존 프로세스는 알림마다 수작업이 많고, 담당 엔지니어의 숙련도에 따라 품질이 달라지는 한계가 있었습니다.
- 핵심 목표: MTTA 단축, 품질 표준화, 지식 자산화.
기술 스택 선택
- Workflow Orchestration: LangGraph (StateGraph 기반 복잡한 워크플로우 설계, Checkpointing 지원).
- 로그 검색·집계: Amazon OpenSearch Service (Query DSL 기반 유연한 로그 탐색 및 분석).
- LLM 런타임: Amazon Bedrock (다양한 Foundation Model을 단일 API로 호출).
전체 아키텍처
- VDI Agent와 Main Agent Server로 구성.
- Outlook Monitor가 알림 감지 → FastAPI Gateway → LangGraph Orchestrator 실행 → OpenSearch, Bedrock 활용 → Teams Agent로 알림 및 Q&A 제공.
LangGraph Workflow 설계
- 14개 에이전트(노드)로 구성된 StateGraph.
- 4단계: 분류·진단, 분석·검증, 복구·승인·실행, 보고·학습.
- 핵심 구현: 상태 스키마 설계(델타 반환, Reducer Merge), Coordinator(알림 분류/메타 검증), State Checker(반복 SSH 탐색), Log Investigator(3단계 로그 분석), 병렬 RCA + 자체 반증(Falsification) + Reflector 교차 검증.
핵심 구현 포인트
- 상태 스키마: TypedDict와 Reducer Merge로 병렬 실행 상태 충돌 방지, PostgresSaver로 Checkpointing 구현.
- Coordinator: LLM 분류와 Meta DB 검증으로 알림 처리 여부 결정.
- State Checker: Ambari API 및 SSH 진단을 반복 수행하며, LLM으로 진단 계획 생성 및 Deduplication 적용.
- Log Investigator: OpenSearch 집계로 우선순위 결정, LLM으로 SearchIntent 생성 및 Triage/Summarize 단계로 비용 최적화.
- 병렬 RCA: 서로 다른 Bedrock 모델로 독립 분석 및 반증 생성, Reflector가 교차 검증하여 최종 신뢰도 산출.
운영 안정성과 보안 설계
- Human-in-the-Loop: 복구 실행은 운영자 승인 후 수행, 비파괴적 명령만 자동 실행.
- 내결함성: Checkpoint 기반으로 프로세스 재시작 시 마지막 상태에서 재개.
도입 효과 및 향후 고도화
- 도입 효과: MTTA 단축, 품질 표준화, 지식 자산화 달성.
- 향후 고도화: 유사 Incident 검색(RAG), 인시던트 상관분석, 예방적 개선, Bedrock 모델 라우팅 자동화, AgentCore 활용 검토.