T
TechInsights
목록으로
Infra•2026. 04. 16.

GS리테일의 AIOps Agent 기반 운영 자동화 혁신

AWS
AWS Engineering Team
AWS

핵심요약

원문 보기

GS리테일은 Amazon Bedrock과 MCP를 활용하여 AI 기반 AIOps Agent 시스템을 구축, 인시던트 분석 시간을 30분 이상에서 2분으로 93% 단축했습니다. 이 시스템은 AI가 7개 이상 도구를 자율적으로 활용해 근본 원인을 분석하고 RCA 보고서를 자동 생성합니다.

GS리테일 AIOps Agent 기반 운영 자동화 혁신

1. 운영 복잡성 및 과제

  • GS리테일은 18,000여 개 지점 및 온라인 채널에서 발생하는 인시던트를 Datadog, Bitbucket, Confluence 등 5~6개의 도구를 오가며 수동으로 분석했습니다.
  • 멀티 조직 모니터링의 어려움, 컨텍스트 전환 비용, 야간/주말 초기 대응 지연, 숙련된 운영자 노하우 축적 미흡 등의 문제가 존재했습니다.
  • 단순 스크립트나 룰 기반 알림으로는 해결하기 어려운, 인시던트별 상황 판단 및 도구 조합이 필요한 지능형 시스템의 필요성이 대두되었습니다.

2. AIOps Agent 솔루션 설계

  • Amazon Bedrock과 Model Context Protocol(MCP)을 활용하여 AI가 자율적으로 도구를 선택하고 근본 원인을 추적하는 에이전트 기반 시스템을 구축했습니다.
  • 주요 설계 기준: AI 모델의 도구 활용 능력 (Converse API), 비용과 분석 품질의 균형, 기존 운영 도구(Datadog, Bitbucket, AWS 등 7개 이상)와의 원활한 연동.
  • 시스템 처리 흐름: Datadog 인시던트 감지 -> EventBridge 라우팅 -> Data Filter Worker -> AI Orchestration Worker (에이전트 루프 시작) -> 리포트 생성 및 알림.

3. 에이전트 루프 핵심 구현

  • 컨텍스트 기반 동적 도구 로딩: 인시던트 유형에 따라 필요한 도구 세트(DB, K8s, Network 등)를 동적으로 로딩하여 정확도 향상.
  • Amazon Bedrock Converse API 기반 하이브리드 루프: Prompt Router (Claude Sonnet 계열)로 비용 효율적인 조사 후, 필요시 Claude Opus 4.5로 최종 심층 분석.
  • Thinking 로직: 매 조사 단계마다 AI가 스스로 다음 액션(도구 선택)을 결정하며, _think() 메서드를 통해 추론 과정을 JSON 형식으로 출력.
  • RAG 기반 지식 검색: 과거 인시던트 분석 결과를 벡터화하여 유사 패턴 검색, 분석 품질 향상.

4. 도입 성과

  • 정량적 성과: 평균 분석 시간을 30분 이상에서 약 2분으로 93% 단축.
  • 정성적 성과: 야간/주말 대응 강화, 조직 지식 축적, 분석 품질 균일화, 투명한 분석 과정 제공.
  • 향후 로드맵: 자동 조치(Auto-Remediation), FinOps Agent 연동, 멀티 에이전트 협업 체계, Graph DB 기반 정확도 향상 등을 추진 중.
#Infra#AI#BackEnd
AWS
AWS

AWS Engineering Team

기술 인사이트를 전달하는 공식 채널

You might also like

View all
아이지에이웍스 AI 에이전트 클레어: Amazon Bedrock 기반 Text-to-SQL/Chart 에이전트로 이룬 데이터 분석 혁신

아이지에이웍스 AI 에이전트 클레어: Amazon Bedrock 기반 Text-to-SQL/Chart 에이전트로 이룬 데이터 분석 혁신

100년 가는 프론트엔드 코드, SDK

100년 가는 프론트엔드 코드, SDK