데이터 정합성 검증: RO(Read Only) DB 기반 검증 배치를 매시 5분 간격으로 실행하여 데이터 누락 보정.
대규모 데이터 이관: 수억 건 마이그레이션을 위한 전용 서버 구성, Bulk Insert 도입, 로컬 캐시 적용, 네트워크 대역폭 관리로 안정적인 이관 수행.
운영 중 장애 대응 및 교훈
DB 부하 급증 장애: 신규 기능 배포 후 옵티마이저의 잘못된 인덱스 선택으로 인한 Full Scan 발생, 즉시 롤백 및 쿼리 힌트 추가로 해결.
장애로 드러난 문제 해결: 두 원장 간 데이터 불일치는 구원장 기준 자동 보정 배치로, 원천사와의 불일치는 망취소(Network Cancellation) 로직으로 해소. MSA 서버 간 타임아웃 설정 불일치 및 결제 이벤트 누락/중복 문제는 타임아웃 일관화, Outbox 패턴, 로그 기반 복구, 멱등키 활용으로 보완.
Lesson & Learn: 초기 설계만큼 중요한 운영 대응 능력과 시스템 자가 회복 구조의 필요성을 깨달았으며, 장애 복구 과정을 통해 안정성과 확장성을 갖춘 결제 인프라로 성장하는 계기가 됨.