Keyword
Contents
1.Motivation
Devops가 개발과 운영의 사일로(분단) 현상을 해결하기 위한 방법론이자 하나의 조직문화에 대한 방향성
개발자와 운영 두팀을 한팀에 묶는 Devops 방식도 시스템이 커지면 운영의 안전성 유지가 힘들어짐
구글의 경우 2000년도경 개발자들이 속도에 무게를 두고 운영팀이 안정성에 무게를 둬서 발생하는 문제에 부딪혔고 이 문제를 해결하고자 나온 방법이 SRE.
2.Purpose
Devops에 포함된 두 팀을 적절히 중재, 관리하기 위한 목적
3.Notation
시스템, 서비스의 안전성을 유지하기 위한 엔지니어링 기술
4.Work
Factor | Method | Implementation |
---|---|---|
Metric & Monitoring | SLI (Indicator) SLO (Objective) | 정량적 모니터링 지표 정의 안전성 목표를 SLO 정의 |
Capacity Planning | 수요 기반 예측 및 성능 튜닝 | 운영을 위한 H/W 리소스 파악 자원 활용 측면 효율성 최대화 |
Change Management | 카나리 배포 롤링 업데이트 | S/W 배포 및 업데이트, 변경 관리 점진적 배포, 장애 및 롤백 관리 |
Emergency Response | MTTF, MTTR Playbook | 빠른 복구로 인한 시간 최소화 Playbook 기반 장애 복구 모의 훈련 |
Culture | Error Budget | 허용되는 장애 시간 파악 비난이 아닌 장애 분석 |