4006-998-758
3000+课程任你选择
大型电商稳定性保障
研发学院 专项治理 容量保障 质量保障 开课时间:2022-03-15
Jerry Feng

毕业于中国科学技术大学,获硕士学位。在软件质量体系、服务容量保障、服务稳定性建设、软件研发效能等领域深耕多年,善于通过创新手段解决质量和效能难题,为多家不同类型的企业和团队提供了落地性极强的改进措施,拥有多项国内外专利。

多次受邀于业界各技术大会(QCon+, QEcon, EE, GIAC, MPD, TiD等)发表演讲,传播先进理念和方法论。


查看老师详情
课程内容

课程介绍


在互联网行业,服务的稳定性是一个永恒的话题,很难想象一个经常宕机的服务能赢得多少用户的口碑。但同时,随着互联网技术的发展和微服务体系的日益盛行,系统的复杂度越来越高,在这种复杂的体系下,保证服务的稳定性成为了极具挑战的工作。即便是很多大厂,在稳定性建设上也会存在疏漏,比如淘宝在某年双11的地址服务问题,天猫某年春晚的抽奖服务问题,微博在热点事件发生时的频繁宕机,都是血淋淋的例子。

目前很多公司的稳定性保障做得不好的原因,一方面是不重视,另一方面是没有全局观,觉得做好某几个工作就可以了。稳定性保障需要员工具备全局视野,不能光看自己负责的某个领域,否则可能这边的稳定性问题解决了,那边又会出现新的问题,通过系统性的培训,可以拉齐员工对稳定性保障的认知,以全局最优的视角做好稳定性保障工作。


课程收益


1、深入理解服务质量保障的工作重点的难点,以及落地方式。

2、深入理解服务容量和性能的保障方法和实践难点。

3、深入理解预案建设的重要性,明确预案制定的要点和推动方式。

4、深入理解混沌工程在稳定性保障中的应用和实施过程。

5、能够以全局视角看待稳定性保障,不仅是技术上开阔眼界,也能从组织保障上思考。

6、了解互联网大厂是如何进行稳定性保障的。


课程对象


本课程为中高级课程,对于互联网企业,尤其是业务类型面向C端用户的企业会特别有帮助


课程大纲



     引子

讲解稳定性保障的难点,稳定性的度量标准,稳定性视角和知识图谱。

第一单元 质量保障

 

 

该单元介绍质量保障的方法,包括:新功能覆盖和老功能回归

1、精准测试

2、流量回放技术

 

第二单元 容量保障

 

 

该单元介绍容量保障的相关工作,包括:全链路压测和容量预测

1、全链路压测:早期方案、单链路压测、几个重点问题、置信度、工具体系、保障层次

2、容量预测:目标、建模、拟合、准确性评价、关联性分析、特征选取

 

 

第三单元 混沌工程

该单元介绍混沌工程的实施方式

1、故障注入场景

2、故障注入流

3、风险控制

4、演练过程

 

第四单元 专项治理

 

 

该单元介绍各项专项治理的案例

1、关键链路治理

2、关键链路治理案例

3、中间件治理

4、中间件治理案例

5、架构治理

6、限流保障

 

第五单元 预案建设

该单元介绍预案的制定和实施过程

1、预案建设:预案五要素、预案覆盖率、预案演练

2、SOP:SOP特点、SOP规范

第六单元 监控告警

 

该单元介绍监控告警的最佳实践   

1、监控告警的分类

2、监控告警大盘

3、监控告警的要点

4、监控告警的应急响应过程

 

第七单元 资损防控

该单元介绍资损防控的几种措施   

1资损防控的重要性

2、资损防控的过程

3、实时核对

 

第八单元 容灾手段

该单元介绍各项主流的容灾手段

1、RTO与RPO

2、两地三中心

3、异地多活

 

第九单元 案例分析

该单元总结知识,分析案例

埃塞俄比亚航空事故的警醒

 









返回上一级