课程背景
随着部门自动化软件的开发,我们也成立了内部运维团队提供软件开发后的后续运维工作。包括:辅助测试,推广以及培训,答疑,收集feedback,识别需求转入开发等。
课程需求
1. 什么是运维,运维工作包括哪些?
2. 对于运维的这些基础工作,如何更好的执行,有没有一套方法论可以支持
3. 如何更好的解决运维的痛点:
3.1 当工具不ready, 进入到运维会产生大量的答疑以及负面feedback工作
3.2 如何更好的识别需求和答疑,并快捷escalate需求至开发
3.3 运维管理标准化经验:工时、流程、template
3.4 运维工作需求很多都来自于PO需要,比如用户不多让运维去推广一下,没有规划性,时间要求也非常紧张
4. 运维看板的KPI如何设置以及评估
5. 运维埋点的设置以及使用
6. 其他对内部运维有帮助的理论以及工具分享
课程时长
2天(6小时/天)
课程大纲
day1
项目一, 从工作职责看运维现状
1 海量业务规模的运维挑战
2 运维工作职责和运维产能
3 SRE实践之故障响应
项目二,建立标准化体系和模型
1 从单体应用到微服务的业务转型
2 业务模型与应用的关系及其依赖关系
3 建立标准化体系的基本思路
项目三,从CMDB开始建设运维基础设施
1 基础设施层面的标准化
2 从软件的生命周期入手,打造运维工具
3 从实际需求中产生CMDB
4 从CMDB中生长出配置管理和监控体系
项目四,从0打造运维组织架构
1 运维基础平台组织架构
2 模块化中间件和存储层
3 技术运营体系结构
4 运维开发体系结构
day2
项目五, 怎样做好持续交付
1 持续交付的关键点
2 通过配置管理解决依赖关系
3 构建合理的线上、线下环境
4 构建持续交付流水线
5 持续交付最佳实践
项目六,怎样做好稳定性技术保障
1 稳定性保障的关键点
2 系统可用性与稳定性的关系
2 如何做好容量规划
3 如何做好限流和降级
4 抢购、秒杀常见下,如何提前做好全链路监控
项目七,怎样做好故障管理
1 故障管理的关键点
2 如何做好实用的故障预案
3 故障定级、责任人制度
4 故障与OnCall机制
5 故障与KPI
5 故障复盘会
项目八,云计算时代的运维个人成长
1 混合云时代的弹性伸缩计算能力
2 运维的产品和运营能力提升
3 如何做好运维交接