4006-998-758
3000+课程任你选择
大数据流式计算课程
研发学院 数学博士 开课时间:2022-01-26
尹立庆

多年从事容器技术、云计算、物联网研发工作经验。北航移动云计算硕士。Cloudera大数据认证(图1),项目管理师(PMP)认证(图2),主要研究方向包括容器技术、云计算、物联网、项目管理等;曾就职于阿里等互联网企业,IBM、华为等知名大型企业,现任某大型知名互联网企业首席架构,负责容器技术、云计算、物联网、PaaS平台研发工作。

IT从业近二十年,秉承理论与实践相结合,在学习中实践,在实践中学习,积累了丰富的理论与实践经验,并且乐于将自己的经验分享。尹老师具有敏锐的目光与头脑,发现并集成整合社会资源,为企业节省资源并创造价值,达到为合作伙伴创收的目的。曾为多家国内知名企业提供培训与咨询,包含阿里集团、华为、中国移动、中国电信、中国联通、当当网、中石油、中石化、中国电网、中国银行、中国工商银行、浦发银行、阿尔卡特朗讯、中航国际等。拥有云计算、物联网、大流量、高并发、分布式的大型网站架构和设计经验。曾主导过多个云计算、物联网、私有云、公有云建设项目,早些年也主导过ERP、CMS等软件项目,积累了丰富的实践经验,这些项目中包含多个数百万、上千万的大型项目。项目经历:呼叫中心人工智能客服研发项目、贵州省政府云呼叫中心建设项目、广东发展银行电营、运维大数据分析项目、中石油工程设计西南分公司云计算项目评审委员、中石油大数据挖掘项目,电商库存预测大数据分析项目、大型ERP、电子商务、CRM、电子政务等多个项目。


查看老师详情
课程内容

课程介绍


随着互联网的快速发展,每天产生海量的数据,其中很多业务数据是实时性要求较高的数据,如网站的精准推荐等功能,因此大数据流式计算技术是企业必须掌握的技术之一。

大数据流式计算技术包括:Flink、Storm、Spark Streaming、Kafka等分布式流处理框架,这几个大数据流式计算技术框架都有自己的特性,因此研发人员需要依据业务场景做出来合理正确的选型,否则会导致各种问题的发生。

本课程重点内容包括大数据流式计算技术的诞生背景、运行原理、开发使用、流式处理的相关算法以及企业级使用最佳实践。学员通过此次课程的学习可以开发大数据流式计算程序。


课程目标


1、 本课程介绍大数据流式计算基本概念、运行原理、编程实战、状态管理;

2、 本课程涵盖Apache Flink的DataStream API、Dataset API、Table API and SQL的介绍和适用场景、编程实战;

3、 本课程介绍Apache Flink、Storm、Kafka、Spark Streaming的流式数据与历史数据仓库的结合计算、connector;

4、 课程包含Apache Flink、Storm、Kafka、Spark Streaming的性能优化、监控、高可用;

5、 本课程使学员快速具备基于Flink、Storm、Kafka、Spark Streaming的项目开发能力,包括机器学习应用。


课程对象


1、 本课程适合于想学习大数据流式计算的编程的人员;

2、 本课程适合于大数据编程的开发人员;

3、 本课程适合于大数据开发项目的团队及人员;

4、 对Apache Flink、Storm、Kafka、Spark Streaming感兴趣的人士;


课程方式


以课堂讲解、演示、案例分析为主,辅以互动研讨、现场答疑、学以致用。


课程大纲


时间

                           内容

备注

第一天

 

第1个主题:   大数据流式计算(深入理解大数据流式计算的特点)(30分钟)

1、 什么是大数据流式计算

2、 大数据流式计算特征

3、 大数据流式计算的数据特点

4、 大数据流式计算的作用

5、 大数据流式计算目标

6、 大数据流式计算的软件有什么

7、 Spark Streaming介绍

8、 Kafka介绍

9、 Flink介绍

10、 Storm介绍

 

第2个主题:   分布式流计算模型(深入剖析分布式流计算模型的实现原理及开发实战)(120分钟)

1、 Spark Streaming概述

2、 Spark Streaming原理剖析

3、 Spark Streaming流数据处理框架介绍

4、 Spark Streaming编程剖析

5、 初始化StreamingContext

6、 Discretized Streams (DStreams)

7、 输入DStreams与Receivers

8、 基于DStreams的Transformations

9、 基于DStreams的输出操作

10、 Accumulators和Broadcast Variables

11、 DataFrame和SQL操作

12、 MLlib操作

13、 Caching与Persistence

14、 Checkpointing

15、 运行Spark Streaming程序

16、 性能调优:减少批处理时间

17、 性能调优:设置正确的批处理间隔时间

18、 内存调优

19、 容错元语

20、 实战案例:Spark Streaming与Kafka整合实现数据实时数据分析处理设计与分析

 

第3个主题:   分布式流计算模型(深入剖析分布式流计算模型的实现原理)(30分钟)

1、 Storm基础知识

2、 Storm集群安装

3、 Storm打包运行测试

4、 Storm基本api介绍

5、 Storm Topology的并发度

6、 Storm消息机制原理讲解

7、 Storm DRPC实战讲解

8、 Storm Transaction原理

9、 Strom Trident编程

10、 Storm案例实战

 

第4个主题:   Storm架构原理剖析与开发实战(深入剖析Storm架构原理与实现技术)(60分钟)

1、 Storm基本概念

2、 Storm逻辑架构

3、 Storm Topology的并发度

4、 进程拓扑关系

5、 Storm序列化

6、 Storm Topology并发度配置

7、 Storm核心API介绍

8、 Storm核心API编程

9、 Storm的Ack框架

10、 Storm消息机制原理讲解

11、 Spout的Tail特性

12、 Stream Groupings策略

13、 实例讲解Grouping策略及并发

14、 Storm在高压力场景下高可靠性实现

15、 Storm记录级容错的基本原理

16、 Storm DRPC整体工作流程

17、 DRPC实现框架

18、 Storm DRPC实战讲解

19、 Storm Windowing原理与实现

20、 滑动Windowing

21、 滚动Windowing

22、 Join Streams

23、 Storm RESTful API

24、 Storm多语言支持

25、 Storm Transaction原理

26、 Transactional Topology框架功能

27、 Storm事务API及案例分析

28、 Storm事务案例实战

 

第5个主题:   Strom Trident剖析与开发实战(深入剖析Storm Trident实现原理及开发方法)(60分钟)

1、 Strom Trident介绍

2、 Trident API介绍

3、 Strom Trident消息

4、 Strom TridentTopology的构建器

5、 Strom Trident的SpoutNode

6、 Trident Spout类型

7、 Strom Trident的容错Spout

8、 Strom Trident操作与处理节点

9、 Strom Trident中的Bolt

10、 Strom Trident的存储

11、 Strom Trident流的基本操作

12、 Strom Trident中流的交互操作

13、 Strom Trident的执行优化

14、 Strom Trident与DRPC

15、 Strom Trident编程实战

 

第6个主题:   分布式消息中间件Kafka剖析(深入理解Kafka的实现原理)(60分钟)

1、 Kafka诞生背景剖析

2、 什么是Kafka

3、 Kafka特征剖析

4、 Kafka架构剖析

5、 Broker

6、 Producer

7、 Consumers

8、 Topics

9、 Leader

10、 Follower

11、 Kafka集群部署

12、 队列模式(queuing)

13、 发布-订阅模式(publish-subscribe)

14、 Kafka创建topic、发送消息、消费消息

15、 数据传输的事务定义

16、 数据的持久化

17、 Kafka存储在硬盘上的消息格式

18、 Kafka节点管理

19、 Kafka运维管理

20、 Kafka主从同步

21、 Kafka的性能优化

22、 Kafka的消息与日志

23、 Kafka实战案例:

 


时间

                   内容

备注

第二天

 

第7个主题:   Kafka Shell操作实战(全面深入理解Kafka相关命令和具备Kafka的运维能力)(30分钟)

1、 Kafka Shell介绍

2、 Kafka查看日志命令

3、 Kafka主从命令

4、 Kafka监控命令

 

第8个主题:   编写Kafka程序(深入理解Kafka的APIs并动手实践)(30分钟)

1、 搭建Kafka开发环境

2、 Driver程序开发

3、 Producer程序开发

4、 Consumer程序开发

5、 发布与运行

6、 Kafka APIs全面剖析

7、 Kafka APIs应用场景剖析及案例

8、 Kafka程序监控

9、 Kafka实战案例:Kafka整合实现数据实时数据分析处理设计与分析

 

第9个主题:   Apache Flink流式计算基本概念介绍(介绍Apache Flink流式计算基本概念)(30分钟)

1、 Apache Flink流式计算基本概念

2、 Apache Flink历史与趋势剖析

3、 Apache Flink特性

a)   流和批处理

b)  状态管理

c)   事件时间处理语义

d)  状态的一次一致性保证

4、 Apache Flink应用场景

a)   事件驱动的应用

                i.   欺诈识别

               ii.   异常检测

             iii.   基于规则的警报

             iv.   业务流程监控

               v.   Web应用程序(社交网络)

b)  数据分析应用

                i.   电信网络的质量监控

               ii.   移动应用中的产品更新分析和实验评估

             iii.   消费者技术中实时数据的临时分析

             iv.   大规模图分析

c)   数据管道应用

                i.   电子商务中的实时搜索索引构建

               ii.   电子商务中的持续ETL

5、 流应用程序的构建方法

a)   Streams

                i.   有界和无界流

               ii.   实时和记录流

b)  State

                i.   多状态基元

               ii.   可插拔状态后端

             iii.   一次状态一致性

             iv.   很大的状态支持

               v.   可扩展的应用

c)   Time

                i.   事件时间模式

               ii.   水印支持

             iii.   后期数据处理

             iv.   处理时间模式

6、 流式数据与历史数据仓库的结合计算

7、 状态管理

 

第10个主题:   Apache Flink架构体系(Apache Flink架构体系介绍)(30分钟)

1、 Apache Flink架构体系

2、 Flink ML,Flink的机器学习库

3、 Gelly,Flink的图计算库

4、 实战案例:Flink代码开发案例

 

第11个主题:   Apache Flink集群部署(Apache Flink集群部署)(30分钟)

1、 Apache Flink集群部署说明

2、 Apache Flink集群部署

3、 最佳实践案例:企业最佳实践案例剖析

 

第12个主题:   Apache Flink两种数据集(Apache Flink两种数据集介绍)(30分钟)

1、 无界数据集

2、 有界数据集

3、 Data Types & Serialization

4、 Data Sources

5、 Data Sinks

6、 Iterations

7、 Fault Tolerance

8、 Debugging

9、 Apache Flink编程案例实战

 

第13个主题:   Apache Flink流计算模型项目开发实战(介绍Apache Flink流计算模型项目开发实战)(30分钟)

1、 Apache Flink流计算模型算法剖析

2、 DataStream Transformations

3、 Physical partitioning

4、 Task chaining and resource groups

5、 Windows

6、 Window Assigners

7、 Tumbling Windows

8、 Sliding Windows

9、 Session Windows

10、 Global Windows

11、 Window Functions

12、 Triggers

13、 实战案例:Apache Flink流计算实践案例

 

第14个主题:   Apache Flink API项目开发实战(Apache Flink API项目开发实战)(30分钟)

1、 Apache Flink API说明

2、 分层API的设计

3、 DataSet API

4、 DataStream API

a)   map

b)  reduce

c)   aggregate

5、 Table API

6、 Apache Flink API最佳实践

7、 Apache Flink API开发实战

8、 最佳实践案例:月结算费用实践案例

 

第15个主题:   FlinkDataStream API项目开发实战(Flink DataStream API项目开发实战)(30分钟)

1、 什么是DataStream

2、 Flink DataStream API说明

3、 Flink案例程序

4、 DataStream数据源

5、 DataStream转换函数

6、 DataStream数据存储

7、 DataStream执行参数

8、 DataStreamDebugging

9、 DataStream API项目开发实战

 

第16个主题:   FlinkDataSet API项目开发实战(Flink DataSet API项目开发实战)(30分钟)

1、 什么是DataSet

2、 Flink DataSet API说明

3、 Flink案例程序

4、 DataSet数据源

5、 读取压缩文件

6、 DataSet转换函数

7、 DataSet数据存储

8、 迭代操作

9、 语义注释

10、 广播变量

11、 DataSet执行参数

12、 DataSetDebugging

13、 分布式缓存

14、 将参数传递给函数

15、 DataSet API项目开发实战

 

第17个主题:   FlinkTable API & SQL项目开发实战(Flink DataSet API项目开发实战)(30分钟)

1、 什么是Table API & SQL

2、 Flink Table API & SQL说明

3、 Flink Table API & SQL案例程序

4、 概念和通用API:Table API和SQL的共享概念和API

5、 数据类型及其属性。

6、 Table API或SQL的流的时间属性的配置和更新结果的处理

7、 connector连接到外部系统

8、 可用的连接器和格式,用于向外部系统读取和写入数据

9、 Table API支持的操作和API

10、 SQL支持的操作和语法

11、 Table API和SQL支持的内置函数

12、 SQL客户端

13、 使用Flink SQL并在没有编程的情况下将表程序提交给集群

 

第18个主题:   Flink的性能优化、监控、高可用(Flink的性能优化、监控、高可用)(30分钟)

1、 Flink性能优化

2、 Flink监控

3、 Flink高可用

4、 一致的检查点

5、 高效检查站

6、 端到端精确一次

7、 与集群管理器集成

8、 高可用性设置

9、 应用演进

10、 集群迁移

11、 Flink版本更新

12、 应用扩展

13、 A / B测试和假设情景

14、 暂停和恢复

15、 封存

16、 监控

17、 网页界面

18、 日志

19、 指标

 

第19个主题:   Flink的复杂事件处理(Flink的复杂事件处理)(30分钟)

1、 模式API

2、 个别模式

3、 组合模式

4、 模式组

5、 赛后跳过策略

6、 检测图案

7、 从图案中选择

8、 CEP库中的时间

9、 处理活动时间的延迟

10、 时间背景

11、 例子

 

第20个主题:   Apache Flink机器学习算法剖析实战(Apache Flink ML实战)(30分钟)

1、 Flink ML机器学习应用

2、 Flink ML,Flink的机器学习库

3、 Gelly,Flink的图计算库

4、 StreamGraph

5、 JobGraph

6、 ExecutionGraph

7、 Apache Flink API最佳实践

8、 Apache Flink API开发实战

9、 最佳实践案例:Flink流式计算实践案例

 

第21个主题:   Gelly:Flink Graph API剖析实战(Gelly:Flink Graph API实战)(30分钟)

1、 Flink的Graph API

2、 Flink Graph API

3、 Flink Iterative Graph Processing

4、 Flink Library Methods

5、 Flink Graph Algorithms

6、 Flink Graph Generators

7、 Flink Bipartite Graphs

 

第22个主题:   Apache Flink AI案例演示(Apache Flink AI案例演示)(30分钟)

1、 Flink AI介绍

2、 Flink AI实现原理

3、 Apache Flink AI最佳实践

4、 Apache Flink AI开发经验分享

5、 最佳案例分享:Flink AI实践案例分享

 

第23个主题:   Alink机器学习算法剖析实战(Apache Flink ML实战)(30分钟)

1、 Alink介绍

2、 Alink机器学习库介绍

3、 Alink安装部署

4、 Alink机器学习库算法剖析

5、 Alink机器学习库算法实战

6、 Alink最佳实践

7、 Alink开发实战

8、 最佳实践案例:Alink实践案例分享

 










返回上一级