4006-998-758
3000+课程任你选择
智能运维的技术应用与实践
研发学院 智能运维的技术应用与实践
张观石

《SRE原理与实践:构建高可靠性互联网应用》作者。

拥有20年软件开发、架构、运维、SRE经验。曾在虎牙直播担任资深运维专家和架构师,历任项目研发负责人、SRE负责人、架构师,事故管理委员会委员、基础保障部架构师委员会委员。

为虎牙基于微服务架构的直播业务、音视频业务、海外直播业务建立了稳定性保障体系,在混合多云架构、可观测性、预案、变更管控、AIOps等SRE领域有深入研究和丰富经验。多次担任虎牙“英雄联盟全球总决赛直播”稳定性保障负责人。

同时,他也是中国信通院分布式系统稳定性实验室高级技术专家,参与编写了信通院《信息系统稳定性保障能力建设指南》。《SRE体系建设及职能转型指南》联合作者、《运维前线》一书的联合作者。多次参与GOPS、MSUP、GDevops/XOPS、51CTO WOT、GTC技术大会分享。


查看老师详情
课程内容

课程目标

本课程清晰完整地讲解SRE(系统可靠性工程)的知识体系、工程体系;讲清楚SRE工程的方法,如怎么样设计高可靠的系统、如何与产研、运维、质量等团队协作;会讲到如何快速发现故障、确定影响、定界定位找到根因;如何找到故障规律并建设预案能力快速修复故障;也会讲到保障能力、混沌工程、AIOps、可观测性等最新理念方法;从管理上如何做好方向规划、工作目标、团队转型、如何与高层取得共识等。

本课程会讲解和展示大量的实践案例,理论结合工程实践,方便理解和参考;本课程会开展工作坊和研讨环节。

课程大纲


课程大纲

 

 

 

 

AIOps的知识与案例

1、AIOPS的基础知识与概况

2、AIOPS在业务运维中的应用场景、前景

3、AIOPS的关键技术

4、AIOPS在运维中的实际案例:

AIOps 在故障诊断与定位的应用

AIOps 在性能优化中的应用

AIOps 在容量管理与资源调度的应用

NLP在舆情分析中识别异常的案例

5、工作坊:结合企业业务实验一个应用案例

 

 

 

AIOPS的工程实施

 

1.     数据收集与处理

2.     AIOps相关算法与应用场景

3.     模型训练与优化

4.     算法的构建和部署

5.     支撑AIOps智能运维的技术架构

6.     效果评估与持续改进

7.     在软件生命周期的的各个阶段如何应用AIOps

8.     多种组件中应用AIOps提升能力

9.     AIOps工程案例、算法案例

 

 

基于大模型的智能运维的探索

1.     运维大语言模型的应用场景

2.     运维领域的Prompt工程

3.     日常如何开始使用大模型

4.     运维领域大模型应用的不足和挑战

5.     运维大语言模型应用路径

6.     工作坊:应用大模型完成一个小任务

基于大模型的智能运维的探索

1.     代码大模型的使用指导

2.     其他大模型的使用指导

3.     基于Dify企业知识库构建chatGPT大模型

大模型在运维中的应用场景和案例

 

1.     运维的应用场景案例:复杂问题排查

2.     日志分析与故障诊断案例

3.     疑难问题分析:系统内核故障分析

4.     构建运维知识库

5.     大模型 for DBA

6.     运维开发,懂开发的运维

7.     运维管理

8.     智能体Agent

9.     用大模型智能运维开发传统算法智能运维


返回上一级