课程介绍
在互联网行业,服务的稳定性是一个永恒的话题,很难想象一个经常宕机的服务能赢得多少用户的口碑。但同时,随着互联网技术的发展和微服务体系的日益盛行,系统的复杂度越来越高,在这种复杂的体系下,保证服务的稳定性成为了极具挑战的工作。即便是很多大厂,在稳定性建设上也会存在疏漏,比如淘宝在某年双11的地址服务问题,天猫某年春晚的抽奖服务问题,微博在热点事件发生时的频繁宕机,都是血淋淋的例子。
目前很多公司的稳定性保障做得不好的原因,一方面是不重视,另一方面是没有全局观,觉得做好某几个工作就可以了。稳定性保障需要员工具备全局视野,不能光看自己负责的某个领域,否则可能这边的稳定性问题解决了,那边又会出现新的问题,通过系统性的培训,可以拉齐员工对稳定性保障的认知,以全局最优的视角做好稳定性保障工作。
课程收益
1、深入理解服务质量保障的工作重点的难点,以及落地方式。
2、深入理解服务容量和性能的保障方法和实践难点。
3、深入理解预案建设的重要性,明确预案制定的要点和推动方式。
4、深入理解混沌工程在稳定性保障中的应用和实施过程。
5、能够以全局视角看待稳定性保障,不仅是技术上开阔眼界,也能从组织保障上思考。
6、了解互联网大厂是如何进行稳定性保障的。
课程对象
本课程为中高级课程,对于互联网企业,尤其是业务类型面向C端用户的企业会特别有帮助
课程大纲
引子 | 讲解稳定性保障的难点,稳定性的度量标准,稳定性视角和知识图谱。 |
第一单元 质量保障
| 该单元介绍质量保障的方法,包括:新功能覆盖和老功能回归 1、精准测试 2、流量回放技术
|
第二单元 容量保障
| 该单元介绍容量保障的相关工作,包括:全链路压测和容量预测 1、全链路压测:早期方案、单链路压测、几个重点问题、置信度、工具体系、保障层次 2、容量预测:目标、建模、拟合、准确性评价、关联性分析、特征选取
|
第三单元 混沌工程 | 该单元介绍混沌工程的实施方式 1、故障注入场景 2、故障注入流 3、风险控制 4、演练过程
|
第四单元 专项治理
| 该单元介绍各项专项治理的案例 1、关键链路治理 2、关键链路治理案例 3、中间件治理 4、中间件治理案例 5、架构治理 6、限流保障
|
第五单元 预案建设 | 该单元介绍预案的制定和实施过程 1、预案建设:预案五要素、预案覆盖率、预案演练 2、SOP:SOP特点、SOP规范 |
第六单元 监控告警
| 该单元介绍监控告警的最佳实践 1、监控告警的分类 2、监控告警大盘 3、监控告警的要点 4、监控告警的应急响应过程
|
第七单元 资损防控 | 该单元介绍资损防控的几种措施 1、资损防控的重要性 2、资损防控的过程 3、实时核对
|
第八单元 容灾手段 | 该单元介绍各项主流的容灾手段 1、RTO与RPO 2、两地三中心 3、异地多活
|
第九单元 案例分析 | 该单元总结知识,分析案例 埃塞俄比亚航空事故的警醒
|