T
TechInsights
목록으로
Architecture•2026. 03. 27.

Part2: 삼성계정 서비스의 Agentic AIOps, 운영환경에서 Multi-Agent 시스템으로 RCA 자동화 하기

AWS
AWS Engineering Team
AWS

핵심요약

원문 보기

삼성 계정 서비스는 Agentic AIOps Multi-Agent 시스템을 도입하여 Root Cause Analysis(RCA) 프로세스를 자동화했습니다. 이 시스템은 Strands Agents SDK의 Agents as Tools 패턴과 FastMCP 기반 Custom Datadog MCP 서버를 활용하여, 이상 탐지부터 근본 원인 분석 및 조치 제안까지의 과정을 5분 이내로 단축하며 운영 효율성을 크게 향상시켰습니다.

Agentic AIOps: 삼성 계정 서비스의 RCA 자동화를 위한 Multi-Agent 시스템

1. 문제 정의 및 목표

  • 대규모 글로벌 서비스 운영 환경에서 장애 발생 시 경험과 직관에 의존하는 RCA(Root Cause Analysis) 프로세스의 비효율성
  • Datadog, CloudWatch 등 풍부한 Observability 데이터 활용의 어려움: 맥락 연결 부재, 분석 품질의 담당자 의존성
  • MTTR(Mean Time To Recovery) 및 MTTD(Mean Time To Detect) 단축 목표: 이상 탐지 후 5분 이내 근본 원인 후보 및 근거 제시
  • 500 에러 발생 시 관련 서비스, 추정 원인, 조치 가이드 자동 제공

2. AIOps의 진화와 Agentic AI의 부상

  • 전통적 AIOps의 한계: 규칙 및 통계 모델 기반, 맥락적 추론 및 상황별 조치 제안 자동화 미흡
  • 생성형 AI와의 통합: AIOps 시장의 폭발적 성장 동력, 추론 및 해결책 제안 기능 강화
  • Agentic AI의 부상: 스스로 추론, 계획, 도구 활용하여 목표 달성하는 능동형 시스템 (2025년 트렌드)
  • Multi-Agent 시스템: 복잡한 워크플로우 처리를 위한 특화 에이전트 간 협업 네트워크

3. 솔루션 아키텍처: Agents as Tools 패턴

  • 초기 단계: 오픈소스 MCP 서버의 한계(데이터 해석 난이도) 및 단일 Agent 구조의 불안정성 발견
  • 전환: 분석 책임 분리를 위한 Agents as Tools 패턴 도입 (Strands Agents SDK)
  • 핵심 개념: Orchestrator Agent가 Specialist Agent를 Tool처럼 호출하여 계층적 위임 수행
  • Graph 패턴과의 차이점: Agents as Tools는 런타임 동적 실행 흐름 결정 (장애 분석 등 유연성 요구 시 적합)

4. 기술 구현 상세

  • Custom MCP 서버: FastMCP 기반, Datadog API 활용하여 "상태 변화" 전달 (기준선 대비 변화율, 이상 징후 등 맥락 정보 포함)
  • Strands Agents SDK: @tool 데코레이터를 활용한 전문가 Agent 구현 및 Orchestrator의 동적 호출
  • FastMCP: Pythonic 프레임워크, @mcp.tool로 빠른 도구 변환, 파라미터 검증 자동화

5. 실제 활용 사례 및 성과

  • AWS us-east-1 LSE 대응: 3분 47초 만에 RCA 자동 완료 (DataCollector, Analyzer, SolutionProvider Agent 활용)
  • 주요 성과: MTTR/MTTD 단축, 운영자 경험 의존성 감소, 지식 축적 및 반복 가능성 확보
  • 핵심 원칙: "가짜 데이터 생성 금지" 구조적 구현, Custom MCP 서버의 필요성, Agents as Tools 패턴의 유연성, 시스템 프롬프트 설계, 자동화와 거버넌스 균형
#Architecture#BackEnd#AI
AWS
AWS

AWS Engineering Team

기술 인사이트를 전달하는 공식 채널

You might also like

View all
아이지에이웍스 AI 에이전트 클레어: Amazon Bedrock 기반 Text-to-SQL/Chart 에이전트로 이룬 데이터 분석 혁신

아이지에이웍스 AI 에이전트 클레어: Amazon Bedrock 기반 Text-to-SQL/Chart 에이전트로 이룬 데이터 분석 혁신

100년 가는 프론트엔드 코드, SDK

100년 가는 프론트엔드 코드, SDK