핵심요약
GS리테일은 Amazon Bedrock과 MCP를 활용하여 AI 기반 AIOps Agent 시스템을 구축, 인시던트 분석 시간을 30분 이상에서 2분으로 93% 단축했습니다. 이 시스템은 AI가 7개 이상 도구를 자율적으로 활용해 근본 원인을 분석하고 RCA 보고서를 자동 생성합니다.
GS리테일 AIOps Agent 기반 운영 자동화 혁신
1. 운영 복잡성 및 과제
- GS리테일은 18,000여 개 지점 및 온라인 채널에서 발생하는 인시던트를 Datadog, Bitbucket, Confluence 등 5~6개의 도구를 오가며 수동으로 분석했습니다.
- 멀티 조직 모니터링의 어려움, 컨텍스트 전환 비용, 야간/주말 초기 대응 지연, 숙련된 운영자 노하우 축적 미흡 등의 문제가 존재했습니다.
- 단순 스크립트나 룰 기반 알림으로는 해결하기 어려운, 인시던트별 상황 판단 및 도구 조합이 필요한 지능형 시스템의 필요성이 대두되었습니다.
2. AIOps Agent 솔루션 설계
- Amazon Bedrock과 Model Context Protocol(MCP)을 활용하여 AI가 자율적으로 도구를 선택하고 근본 원인을 추적하는 에이전트 기반 시스템을 구축했습니다.
- 주요 설계 기준: AI 모델의 도구 활용 능력 (Converse API), 비용과 분석 품질의 균형, 기존 운영 도구(Datadog, Bitbucket, AWS 등 7개 이상)와의 원활한 연동.
- 시스템 처리 흐름: Datadog 인시던트 감지 -> EventBridge 라우팅 -> Data Filter Worker -> AI Orchestration Worker (에이전트 루프 시작) -> 리포트 생성 및 알림.
3. 에이전트 루프 핵심 구현
- 컨텍스트 기반 동적 도구 로딩: 인시던트 유형에 따라 필요한 도구 세트(DB, K8s, Network 등)를 동적으로 로딩하여 정확도 향상.
- Amazon Bedrock Converse API 기반 하이브리드 루프: Prompt Router (Claude Sonnet 계열)로 비용 효율적인 조사 후, 필요시 Claude Opus 4.5로 최종 심층 분석.
- Thinking 로직: 매 조사 단계마다 AI가 스스로 다음 액션(도구 선택)을 결정하며,
_think()메서드를 통해 추론 과정을 JSON 형식으로 출력. - RAG 기반 지식 검색: 과거 인시던트 분석 결과를 벡터화하여 유사 패턴 검색, 분석 품질 향상.
4. 도입 성과
- 정량적 성과: 평균 분석 시간을 30분 이상에서 약 2분으로 93% 단축.
- 정성적 성과: 야간/주말 대응 강화, 조직 지식 축적, 분석 품질 균일화, 투명한 분석 과정 제공.
- 향후 로드맵: 자동 조치(Auto-Remediation), FinOps Agent 연동, 멀티 에이전트 협업 체계, Graph DB 기반 정확도 향상 등을 추진 중.