Part2: 삼성계정 서비스의 Agentic AIOps, 운영환경에서 Multi-Agent 시스템으로 RCA 자동화 하기
핵심요약
삼성 계정 서비스는 Agentic AIOps Multi-Agent 시스템을 도입하여 Root Cause Analysis(RCA) 프로세스를 자동화했습니다. 이 시스템은 Strands Agents SDK의 Agents as Tools 패턴과 FastMCP 기반 Custom Datadog MCP 서버를 활용하여, 이상 탐지부터 근본 원인 분석 및 조치 제안까지의 과정을 5분 이내로 단축하며 운영 효율성을 크게 향상시켰습니다.
Agentic AIOps: 삼성 계정 서비스의 RCA 자동화를 위한 Multi-Agent 시스템
1. 문제 정의 및 목표
- 대규모 글로벌 서비스 운영 환경에서 장애 발생 시 경험과 직관에 의존하는 RCA(Root Cause Analysis) 프로세스의 비효율성
- Datadog, CloudWatch 등 풍부한 Observability 데이터 활용의 어려움: 맥락 연결 부재, 분석 품질의 담당자 의존성
- MTTR(Mean Time To Recovery) 및 MTTD(Mean Time To Detect) 단축 목표: 이상 탐지 후 5분 이내 근본 원인 후보 및 근거 제시
- 500 에러 발생 시 관련 서비스, 추정 원인, 조치 가이드 자동 제공
2. AIOps의 진화와 Agentic AI의 부상
- 전통적 AIOps의 한계: 규칙 및 통계 모델 기반, 맥락적 추론 및 상황별 조치 제안 자동화 미흡
- 생성형 AI와의 통합: AIOps 시장의 폭발적 성장 동력, 추론 및 해결책 제안 기능 강화
- Agentic AI의 부상: 스스로 추론, 계획, 도구 활용하여 목표 달성하는 능동형 시스템 (2025년 트렌드)
- Multi-Agent 시스템: 복잡한 워크플로우 처리를 위한 특화 에이전트 간 협업 네트워크
3. 솔루션 아키텍처: Agents as Tools 패턴
- 초기 단계: 오픈소스 MCP 서버의 한계(데이터 해석 난이도) 및 단일 Agent 구조의 불안정성 발견
- 전환: 분석 책임 분리를 위한 Agents as Tools 패턴 도입 (Strands Agents SDK)
- 핵심 개념: Orchestrator Agent가 Specialist Agent를 Tool처럼 호출하여 계층적 위임 수행
- Graph 패턴과의 차이점: Agents as Tools는 런타임 동적 실행 흐름 결정 (장애 분석 등 유연성 요구 시 적합)
4. 기술 구현 상세
- Custom MCP 서버: FastMCP 기반, Datadog API 활용하여 "상태 변화" 전달 (기준선 대비 변화율, 이상 징후 등 맥락 정보 포함)
- Strands Agents SDK:
@tool데코레이터를 활용한 전문가 Agent 구현 및 Orchestrator의 동적 호출 - FastMCP: Pythonic 프레임워크,
@mcp.tool로 빠른 도구 변환, 파라미터 검증 자동화
5. 실제 활용 사례 및 성과
- AWS us-east-1 LSE 대응: 3분 47초 만에 RCA 자동 완료 (DataCollector, Analyzer, SolutionProvider Agent 활용)
- 주요 성과: MTTR/MTTD 단축, 운영자 경험 의존성 감소, 지식 축적 및 반복 가능성 확보
- 핵심 원칙: "가짜 데이터 생성 금지" 구조적 구현, Custom MCP 서버의 필요성, Agents as Tools 패턴의 유연성, 시스템 프롬프트 설계, 자동화와 거버넌스 균형