T
TechInsights
목록으로
Architecture•2025. 09. 10.

장애 모의 훈련 그리고 배운 점

하이퍼커넥트
하이퍼커넥트 Engineering Team
장애 모의 훈련 그리고 배운 점

핵심요약

원문 보기

Hyperconnect SRE팀은 실제와 유사한 대규모 장애 모의 훈련을 진행하여 엔지니어들의 신속한 장애 대응 능력을 향상시키고 시스템 취약점을 개선했습니다. 이 훈련은 구체적인 시나리오 설계와 철저한 환경 준비를 통해 이루어졌으며, 주요 개선점과 향후 계획을 도출했습니다.

Hyperconnect SRE팀의 장애 모의 훈련 성공 사례 및 개선점

장애 모의 훈련 개요 및 시나리오 설계

  • Motivation: 복잡한 마이크로서비스 환경에서 대규모 서비스 장애 시 신속한 대응 능력 강화를 위해 모의 훈련 도입.
  • Training Scope: Azar 서비스의 API 서버, 매치 서버, 매치 추천 AI 컴포넌트를 대상으로 하며, Web/Mobile 클라이언트 오류는 제외.
  • Participants: 최근 입사한 엔지니어 (액티브 대상자) 중심, 필요시 팀원 에스컬레이션 (패시브 대상자) 유도.
  • Scenario Design: 실제 발생 가능성이 높고, 단일 지점 원인에 초점을 맞춘 4가지 시나리오 개발. (e.g., Elasticache 네트워크 장애, 매칭 알고리즘 설정 오류, Availability Zone 장애).
  • Key Principle: 시스템 취약점을 잘 아는 엔지니어를 시나리오 설계자로 활용하여 실현 가능성 높은 시나리오 구축.

실제와 유사한 훈련 환경 구축

  • Environment Selection: Production과 유사한 Stage 환경을 활용하여 실제감 있는 훈련 진행.
  • Traffic Simulation: K6 기반 스크립트로 분산 환경에서 실제와 유사한 높은 부하 트래픽 생성.
  • Monitoring Setup: 각 팀의 핵심 Grafana 대시보드를 전수 조사하여 Stage 환경에 맞게 업데이트, 지표 기반 판단 훈련 강화.
  • Component Integration: N개의 마이크로서비스 컴포넌트를 추가 배포 및 연결하여 End-to-End 장애 시뮬레이션 환경 조성.
  • Kafka Cluster Segregation: Non-prod용 Kafka 클러스터를 stage 전용으로 분리하여 지표 혼합 방지.

장애 주입 테스트 및 주요 학습점

  • Injection Methods: Elasticache 장애는 DDoS 공격 모사 스크립트로 부하를 가하여 클러스터 연결 불가 상태 유발.
  • AZ Fault Simulation: AWS Resilience Hub 템플릿을 활용하여 Availability Zone 장애 구현.
  • Key Learnings from AZ Fault:
    • Quorum이 깨지는 컴포넌트는 완전히 제거 후 새로 시작하는 것이 효율적.
    • AZ 간 통신 문제 발생 시 RDS, Elasticache 등의 primary 인스턴스를 동일 AZ로 재배치.
    • 대규모 노드 장애 시 K8s 지표만으로는 신속한 파악이 어려우므로 비즈니스 지표 우선 확인.

훈련 진행 및 개선 방향

  • Drill Execution: 실제 장애와 동일하게 내부 봇을 이용한 채널 생성, 관련 인원 초대 및 악화되는 지표 경고 제공.
  • Outcomes: 4개 시나리오 중 2개 대응 성공; 모범답안과 다른 해결책 발견 및 잘못된 완화 작업으로 악화 사례 발생.
  • Common Improvements:
    • 근본 원인보다 손상된 부분의 빠른 파악 및 완화에 집중, 초기 복구는 나중에.
    • 최우선 기능 복구 및 잘못된 작업 시 즉각적인 롤백 수행.
    • 팀 간 모니터링 지표 공유 및 이해도 증진.
  • SRE Specific Improvements: 전체 상황 감독 및 디렉션 강화, 불필요한 대화 관리, 장애 기록 철저 유지, 자동화 시스템 점검.
  • Azar Team Improvements: 서비스 지표 이상 유무 신속 보고, 문제 해결 어려울 시 빠른 에스컬레이션, 핵심 기능 동작 지속 테스트.
#Architecture#BackEnd#Infra
하이퍼커넥트
하이퍼커넥트

하이퍼커넥트 Engineering Team

기술 인사이트를 전달하는 공식 채널

You might also like

View all
토스 피플 : 새로운 길을 만들 땐 내 선택을 믿는다

토스 피플 : 새로운 길을 만들 땐 내 선택을 믿는다

"이 버튼 왜 안 눌려요?" 물류 현장의 목소리로 PDA 시스템 완성하기

"이 버튼 왜 안 눌려요?" 물류 현장의 목소리로 PDA 시스템 완성하기