핵심요약
카카오페이증권은 고객 관점의 서비스 상태를 가시화하고 장애 관리 프로세스를 자동화하기 위해 '핑크와드' 프로젝트를 구축했습니다. 이를 통해 장애 감지, 정보 공유, 보고서 작성 등 전반적인 장애 대응 시간을 대폭 단축하고 심리적 안정감을 확보했습니다.
핑크와드: 고객 관점 서비스 상태 가시화 및 장애 자동화 프로젝트
프로젝트 개요 및 배경
- 카카오페이증권의 "핑크와드" 프로젝트는 고객 관점의 서비스 상태 가시화 및 장애 관리 프로세스 자동화를 목표로 시작되었습니다.
- 기존 장애 프로세스에서는 영향도 파악, 담당자 호출, 고객 응대 정보 공유, 보고서 작성 등에서 병목 현상과 수동 작업으로 인한 비효율이 발생했습니다.
- "핑크와드"는 게임 **'리그 오브 레전드'**의 **'제어 와드'**에서 영감을 받아 서비스 전반의 숨겨진 장애를 빠르게 파악하는 역할을 상징합니다.
AS-IS/TO-BE 장애 프로세스 및 아키텍처
- AS-IS 프로세스: 모니터링 시스템, 사내 제보 등을 통해 수동으로 장애 등록(지라 티켓, 슬랙 채널 생성) 및 담당자 초대, 현황 공유, 조치 후 포스트모템 진행.
- TO-BE 프로세스: Grafana/OpenSearch 웹훅을 통한 자동 장애 감지 및 등록, 담당자 식별 및 초대, 핑크와드 대시보드에 서비스 장애 상태 표시.
- 자동화된 기능: 장애 조치 폼 제공, 슬랙 대화 요약(w. 춘시리 LLM), 장애 보고서 및 포스트모템 문서 자동 생성(AI 초안).
- 아키텍처: 내부 LLM 챗봇 '춘시리'(Amazon Bedrock 기반), 생산성 플랫폼 'WECAN' (메타데이터 관리), **Grafana/OpenSearch (모니터링)**와 연동.
- 구성 요소: 핑크와드 FE (대시보드), 핑크와드 BE (웹훅 수신, DB 적재, 슬랙봇), 핑크와드 배치 (슬랙 요약, 알림).
주요 기능 및 효과
- 대시보드: "서비스", "리소스", "장애" 개념 정의 기반으로 서비스 상태 가시화, 진행 중인 장애 표시, AI 요약 현황, 서비스/리소스 맵을 통한 영향도 및 담당자 확인.
- 슬랙봇: 웹훅 엔드포인트를 통한 자동 장애 감지 및 등록, 채널 생성, 담당자 초대. Grafana Image Renderer로 패널 이미지 발송. 수동 등록 및 롤백 버튼 제공.
- 슬랙 채널 상호작용: 장애 원인/영향도/복구 시각 수정 메시지, 정보 미입력 시 알림, LLM 기반 대화 요약 및 중요 메시지 적재.
- 정량적 성과: 장애 프로세스 67% 단축, 장애 보고서 작성 시간 80% 감소, 고객 응대 정보 파악 시간 90% 감소.
- 정성적 성과: 장애 상황에서의 심리적 안정감 증대, 전사 차원의 원활한 소통 및 비개발 부서의 상황 인지 용이.
향후 계획 및 결론
- VOC 자동 취합 시스템: VOC 플랫폼 통합으로 장애 관련 VOC 리포팅 자동화.
- 반자동 장애 조치 봇: LLM 및 MCP 활용하여 슬랙 승인 기반의 장애 조치 자동화.
- 프로젝트 교훈: DevOps 엔지니어 관점을 버리고 고객 관점에서 문제 정의 및 해결에 집중하여 성공적인 결과 도출. "용어 정의의 혼란" 및 **"고객 중심 사고 부족"**이 초기 어려움이었으나 극복.