1️⃣ 영웅 서사가 생기는 조직의 공통점
- 문서 없음
- 책임자 불명확
- 장애 유형 분류 안 됨
- “일단 뛰어가서 고치자”
결과:
- 특정 개인만 시스템을 앎
- 야간·휴일 호출 고정 멤버
- 같은 장애 재발
- 퇴사 순간 리스크 폭발
👉 이건 조직 실패입니다.
2️⃣ 플레이북의 목적
플레이북은 “잘 고치는 법”이 아니라 **“생각 안 해도 되는 상태”**를 만드는 겁니다.
- 누가?
- 언제?
- 어디서?
- 무엇을?
- 어떤 순서로?
이게 정해져 있으면
사람이 아니라 절차가 대응합니다.
3️⃣ 최소 장애 플레이북 구성 (현실 버전)
① 장애 분류 (5분 컷)
- 장애 유형:
- 인프라 / 애플리케이션 / 외부 연동 / 데이터
- 영향 범위:
- 전체 / 일부 / 특정 기능
- 심각도(S1~S3)
👉 분류 안 되면 대응도 안 됩니다.
② 즉시 조치 체크리스트
예시 (웹/백엔드 기준):
- 트래픽 차단 여부
- 롤백 가능 여부
- 외부 API 차단 / 우회
- 배치 중지
- 재시작 허용 여부
❗ “코드 수정”은 맨 마지막
③ 커뮤니케이션 룰
- 외부 공지 주체 1명
- 내부 상황 공유 채널 1개
- 기술 대응자 ≠ 커뮤니케이터
👉 이거 안 지키면 기술보다 사람이 더 망가집니다.
④ 사후 조치 (이게 핵심)
- 타임라인
- 근본 원인 (5 Why)
- 재발 방지 항목
- 플레이북 수정 여부
❌ “담당자 주의”는 금지
⭕ 시스템/프로세스 수정만 허용
4️⃣ 플레이북이 있으면 생기는 변화
- 장애 대응 속도 ↓
- 심리적 압박 ↓
- 신규 인력 투입 가능
- 휴가 중 연락 차단 가능
그리고 제일 중요:
👉 영웅이 필요 없는 조직이 됩니다.
5️⃣ 좋은 장애 대응 조직의 문장
“누가 있어도 같은 대응이 나온다”
이 문장이 되면
이미 SRE/플랫폼 조직 절반은 한 겁니다.
LIST
'Spring & Backend' 카테고리의 다른 글
| 락인은 기술 문제가 아니라 조직 결정의 결과다 (0) | 2026.02.04 |
|---|---|
| 백엔드는 빠른 것보다 되돌릴 수 있는 것이 먼저다 (0) | 2026.02.04 |
| 정합성은 선택이 아니다. 언젠가 비용으로 돌아온다 (0) | 2026.02.04 |
| 네트워크에서 회선 교환 방식과 패킷 교환 방식은 어떤 차이점 있나요? (0) | 2026.02.03 |
| BFF(Backend For Frontend)란 무엇인가요? (0) | 2026.02.03 |
