데브시스터즈 전사적 장애 대응 원칙 및 방법론

데브시스터즈 장애 대응 핵심 원칙

FRT(First Response Time) 기반 티어링: 알람을 Tier 0 (최우선, <15min), Tier 1 (차순위, 평일 <15min, 밤~12h), **Tier 2 (개입 필요, 평일 <2~3h, 밤/주말 다음 업무일)**로 분류하여 대응 우선순위를 명확히 합니다.
장애 대응 팀 구성: 최소 2인 이상 (지휘자, 기록가)으로 구성하고 역할을 명확히 분배하여 효과적인 대응을 수행합니다.
Datadog Incident 활용: 장애 선언 및 전용 채널 구성을 통해 커뮤니케이션을 집중하고 타임라인 분석을 용이하게 합니다.
원인 파악 및 해결 우선순위: 사용자 영향 시 근본 원인보다 서비스 복구 우선하며, 모든 변경 작업은 커뮤니케이션 통해 진행하여 일관성을 유지합니다.
장애 종료 및 포스트모템: 문제 해결 후 명확한 종료 선언 및 포스트모템 미팅으로 개선점을 도출하고 액션 아이템을 구체화하여 지속적인 개선을 추구합니다.