
핵심요약
데브시스터즈는 서비스 복구를 최우선으로 하는 전사적 장애 대응 원칙과 방법론을 확립했습니다. 이는 체계적인 알람 티어링, 명확한 역할 분담, 그리고 포스트모템을 통한 지속적인 학습과 개선을 포함합니다.
데브시스터즈 전사적 장애 대응 원칙 및 방법론
데브시스터즈 장애 대응 핵심 원칙
- 서비스 정상화 최우선: 문제 원인 탐색보다 신속한 서비스 복구에 집중하며, 가능한 사람이 최선을 다해 기여합니다.
- 전원 응급 조치 역량 확보: 담당자 부재 시에도 대응 가능하도록 기본적인 응급 조치 역량을 확보합니다.
- 적극적인 에스컬레이션: 장애 인지 시 오탐이라도 즉시 도움 요청 및 상황을 전파하여 신속한 공동 대응을 유도합니다.
- 대응 환경 상시 준비: 랩탑, 테더링 등 적절한 장비와 셋업을 유지하여 언제든 대응 가능한 환경을 구축합니다.
- 객관적 기록 및 공유: 조치 내용, 판단 근거를 실시간 기록하여 정보 전달 및 엔지니어 역량 강화 기회로 활용합니다.
- 장애 회고의 중요성: 동일 장애 재발 방지를 위한 포스트모템을 진행하여 원인을 분석하고 시스템 강화 논의를 수행합니다.
알람 티어링 체계 및 효과적인 대응 방안
- FRT(First Response Time) 기반 티어링: 알람을 Tier 0 (최우선, <15min), Tier 1 (차순위, 평일 <15min, 밤~12h), **Tier 2 (개입 필요, 평일 <2~3h, 밤/주말 다음 업무일)**로 분류하여 대응 우선순위를 명확히 합니다.
- 장애 대응 팀 구성: 최소 2인 이상 (지휘자, 기록가)으로 구성하고 역할을 명확히 분배하여 효과적인 대응을 수행합니다.
- Datadog Incident 활용: 장애 선언 및 전용 채널 구성을 통해 커뮤니케이션을 집중하고 타임라인 분석을 용이하게 합니다.
- 원인 파악 및 해결 우선순위: 사용자 영향 시 근본 원인보다 서비스 복구 우선하며, 모든 변경 작업은 커뮤니케이션 통해 진행하여 일관성을 유지합니다.
- 장애 종료 및 포스트모템: 문제 해결 후 명확한 종료 선언 및 포스트모템 미팅으로 개선점을 도출하고 액션 아이템을 구체화하여 지속적인 개선을 추구합니다.
데브시스터즈