Home SRE
Post
Cancel

SRE


Keyword

  1. SRE
  2. Agile

Contents

1.Motivation

Devops가 개발과 운영의 사일로(분단) 현상을 해결하기 위한 방법론이자 하나의 조직문화에 대한 방향성
개발자와 운영 두팀을 한팀에 묶는 Devops 방식도 시스템이 커지면 운영의 안전성 유지가 힘들어짐
구글의 경우 2000년도경 개발자들이 속도에 무게를 두고 운영팀이 안정성에 무게를 둬서 발생하는 문제에 부딪혔고 이 문제를 해결하고자 나온 방법이 SRE.

2.Purpose

Devops에 포함된 두 팀을 적절히 중재, 관리하기 위한 목적

3.Notation

시스템, 서비스의 안전성을 유지하기 위한 엔지니어링 기술

4.Work

SRE

FactorMethodImplementation
Metric & MonitoringSLI (Indicator) SLO (Objective)정량적 모니터링 지표 정의
안전성 목표를 SLO 정의
Capacity Planning수요 기반 예측 및 성능 튜닝운영을 위한 H/W 리소스 파악
자원 활용 측면 효율성 최대화
Change Management카나리 배포 롤링 업데이트S/W 배포 및 업데이트, 변경 관리
점진적 배포, 장애 및 롤백 관리
Emergency ResponseMTTF, MTTR Playbook빠른 복구로 인한 시간 최소화
Playbook 기반 장애 복구 모의 훈련
CultureError Budget허용되는 장애 시간 파악
비난이 아닌 장애 분석