课程目标
本课程清晰完整地讲解SRE(系统可靠性工程)的知识体系、方法体系、工程体系;讲清楚SRE工程的方法,如怎么样设计高可靠的系统、如何与产研、运维、质量等团队协作;会讲到如何快速发现故障、确定影响、定界定位找到根因;如何找到故障规律并建设预案能力快速修复故障;也会讲到保障能力、混沌工程、AIOps、可观测性等最新理念方法;从管理上如何做好方向规划、工作目标、团队转型、如何与高层取得共识等。
本课程会讲解和展示大量的实践案例,理论结合工程实践,方便理解和参考;本课程会开展工作坊和研讨环节。
课程收益
指导性强:彻底讲清SRE的工程体系、方法体系、知识体系;
方法体系完整:讲述整套体系,行业当前热门方法形成完整工程框架;
实践性强:中大互联网企业实践案例总结,属于行业最先进的经验,大部分可直接参考,甚至拿来用;结合企业实际开展工作坊研讨、分析、共创。
1. 学员清楚理解SRE工程体系,对SRE的认知更加完整;
2. 掌握理清运维琐事的方法并初步梳理;
3. 掌握通过SLO度量业务和系统的可靠性;
4. 掌握高可用架构设计、故障修复的整体思路和方法、预案平台的建设;
5. 掌握SRE的工程体系和管理方法,进一步了解如何做好故障治理和故障复盘;
6. 更加深入理解可观测性、混沌工程的重要性,和一些创新的工作方法。
课程对象
互联网企业基础设施、IT部门、运维团队,传统企业的IT部门、运维部门
学员对象:运维工程师、SRE工程师、开发工程师、研发架构师、基础架构师、QA/测试工程师、技术管理者
课程大纲
1、SRE方法及SRE工程工作
a. 介绍SRE愿景与使命、工作职责内容;与传统可靠性、与传统运维工作方式的区别
b. SRE团队从创建到升级、SRE工程全貌大图
c. SRE 工程方法之消减琐事:识别统计、如何消减、案例分析
d.工作坊/研讨:当前团队的主要琐事工作
2、SLO体系建设-黄金指标:如何度量和评估系统稳定性
a. 如何度量可靠性:SLO方法、建设实施SLO
b. 围绕SLO建立质量体系
c. 案例分析:黄金指标项目
d. 工作坊/研讨:识别核心服务并建立黄金指标SLO
3、可靠性设计能力:从SRE的角度如何设计可靠的系统
a. SRE参与可靠性设计工作的理念和方法;设计高可靠性系统4种方法
b. SRE如何参与可靠性设计:发现风险推进改进、架构准入及架构治理项目
c. 案例:架构标准化、3个架构改进项目
d. 工作坊/研讨:画出核心服务的架构图,并指出可能风险Top3
4、观测能力:怎样做到比老板/用户/产品先发现问题、快速定位?
a. 可观测性的认识与恩考,观测能力如何帮助更早发现问题
b. 如何建设可观测性体系:以SRE的方式进行监控告警,观测能力帮助快速定位 ,观测平台架构,立体化监控体系
c. 观测能力应用:用于质量改进、用于故障分析,如何利用故障定界定位能力,观测能力帮助快速故障定位
d. 大模型在运维领域的应用场景和实践经验
e. 案例:AIOps根因推荐和根因定位、及观测能力度量
f. 工作坊/研讨: 故障发现、定界定位能力水平评估及存在Top问题
5、故障修复能力:掌握故障规律、建设预案系统
a. 业界案例:修复能力分级、3个惨案现场
b. 故障修复的套路:可被修复的架构设计,在故障中寻找规律,应对套路,故障修复能力分级
c. 应急预案平台建设:架构、建设思路、预案平台案例,预案方案案例
(1)风险识别:事前风险识别及防控,案例。
(2)故障案例:典型故障案例分析,应急处理方法及应急预案。
(3)演练工具:应急预案演练工具、环境等。
(4)应急预案编制:整体内容详实且成体系。
d.变更类故障的修复、紧急情况下修复故障
e. 工作坊/研讨:修复能力的评估分级,预案数量及哪种类型
6、应急协同及综合保障能力:打好一场遭遇战
a. 应急协同:快速发现、组织战斗,快速定界定位,对外联系,值班工作、应急升级等
b.管控系统可靠性:产品坏了找不到修理工具
c.与SRE应急运维相关的工具、资源、与人
d.案例:多个故障案例呈现,好案例,坏案例
e.工作坊/研讨:模拟演练故障协同,最近故障原因,如何被修复的Top故障
7、混沌工程/故障演练:在试验中发现风险,进行风险治理
a. 混沌工程:故障演练的建设思路及常用工具介绍。演练案例,案例场景列表
b. 故障治理:如何做到“治未病”
c. 反脆弱能力的运营与推行
d.工作坊/研讨:适合当前进行的反脆弱演练场景
8、SRE管理能力:故障管理、SRE工作规划
a.故障复盘、故障分析、故障定级新方法
b.运维研发如何紧密合作,Devops不仅是工具,更是精神和工作方法
c. 如何规划SRE的工作方向:抓住主要矛盾,找到价值最大点
d.工作坊/研讨:故障复盘演练,如何把握SRE的工作方向
每一个小节会讲3个方面:
1、工作方法:方法和理念、技术的认识,具体的工作方法
2、实践案例:虎牙和业界是怎么做的
3、研讨/工作坊:下午组织分组工作坊,结合企业实际和课程所讲方法,分析当前问题及原因,提供解决思路


