핵심요약
야놀자는 Amazon Bedrock AgentCore와 Strands SDK를 활용하여 6주간 6개의 AI Agent를 구축, 반복적인 인프라 운영 업무를 자동화하고 수동 업무 시간을 50% 이상 감소시켰습니다. 이는 IDP 장애 진단, DB 알람 대응, FinOps 비용 분석 등 다양한 운영 Pain Point를 해결하고 조직의 AI 역량을 강화하는 성과를 가져왔습니다.
야놀자의 Strands SDK와 Bedrock AgentCore를 활용한 AIOps Agent 구축 사례
AIOps 도입 배경 및 목표
- 복잡하고 반복적인 인프라 운영 업무(문의 응대, 장애 대응, 비용 관리 등)로 인한 팀의 비효율성 증가
- 장애 발생 시 히스토리 분산 및 진단 과정의 복잡성으로 인한 MTTR 증가
- AI Agent 기반 자동화 솔루션 구축을 통해 수동 업무 시간 50% 이상 감소, AI Champion 양성, 실사용 Agent 및 개발 가이드 산출을 목표로 함
AWS 솔루션 선택 및 아키텍처
- Amazon Bedrock & AgentCore: 엔터프라이즈급 보안, 다양한 Foundation Model 지원, 완전 관리형 서비스, Knowledge Base 및 RAG 통합 기능으로 AI Agent 구축 및 운영 환경 제공
- Strands Agent SDK: Orchestrator Agent 패턴, Context 공유, Tool Integration(AWS API, DataDog, GitHub 등)을 통해 복잡한 Agent 간 협업 및 외부 시스템 연동 지원
- Multi-Agent 시스템: Supervisor Agent, Knowledge Agent, Provisioning Doctor Agent 등 각 역할에 특화된 Agent들의 협업으로 인프라 운영 자동화 구현
주요 구축 Agent 및 기대효과
- IDP 운영 효율화: Multi-Agent 시스템으로 장애 진단 자동화, MTTR 50% 단축, 티켓 감소율 50%
- 장애대응 프로세스 자동화: Slack 연동, 자동 포스트모템 초안 작성, 관련 데이터 자동 수집으로 장애 대응 시간 2주에서 24시간으로 단축
- DB ChatBot: DB Alert 발생 시 자동 분석 및 담당자 연결, 메트릭 조회, 원인 파악, 권장 조치 제시로 대응 시간 단축
- DataCenter AI Agent: Ansible 기반 자산 정보 수집 및 AI를 통한 문서 자동 업데이트로 수동 관리 작업 감소, 정보 정확성 및 최신성 확보
- FinOps Helper: 자연어 기반 AWS 비용 질의 응답, 최적화 가이드 제공으로 비용 확인 및 분석 프로세스 간소화, 업무 효율성 향상
- DD_Kitty (DataDog 도우미): DataDog 설정 검증 및 분석 자동화, GitHub Manifest 수집, 분석, 검증, 보고서 생성으로 문의 응대 및 문제 해결 시간 단축
도입 결과 및 향후 계획
- 성과: AI Agent 개발 경험 내재화, 문제 해결 관점 전환, 기술 스택 표준화 기반 마련
- 향후 계획: 에이전트 통합 운영 플랫폼 구축, GUI 기반 Agent Builder 개발, 멀티 에이전트 협업 체계 확장, 전문화된 도메인 에이전트 확대
- 결론: 현업 중심 문제 정의, AWS 완전 관리형 서비스 활용, 조직 역량 내재화를 통해 AIOps 도입 성공, 지속적인 기능 확장 및 통합 플랫폼 발전 목표