4006-998-758
3000+课程任你选择
流批一体架构和Flink技术实战
研发学院 流批一体架构 数据处理 Flink 开课时间:2021-07-03
刘刚

有着10年基于大数据平台数据建模、数据治理、数据分析和挖掘的大型数据仓库项目架构实施经验,实施过基于Hadoop平台PageRank算法的实现,在大数据架构、开发、运维和优化、数据集成、数据湖(Data Lake)、数据建模、数据挖掘/机器学习、实时推荐等方面有丰富经验,了解大数据在互联网、金融、电信方面的应用、落地和使用场景。

查看老师详情
课程内容

课程介绍

本课程的大纲设置,注重的是Flink基础和核心技术的梳理和掌握,之后会对其中几个重要的技术点做深入分析。针对企业内训的需求,我们对大纲的设置,特别增加了学以致用的实战环节,让企业学员能够在学习完Flink技术知识后,具备将Flink应用到实际生产环境中的能力,通过短时间的技术学习,为公司创造价值和提高技术生产的效率。

本课程理论和实战相结合,能够通过实践学习Flink的核心知识点和应用场景;课程的最大亮点是“Flink实时数据仓库项目实战”模块,通过真实的实时数仓项目,帮助学员能够快速进入Flink项目的开发。


课程收益:


- 深入了解流批一体数据摄取、整合、处理和应用的解决方案和技术体系架构

- 了解Flink的典型应用场景和Flink在大型互联网的典型应用

- 深入了解Flink技术栈的功能和应用场景,对流批一体的解决方案和落地有深入的理解,并且能够落地

- 深入了解Flink编程模型及核心原理、DataSet API编程、DataStream API编程、Flink Table API&SQL编程、Time及Window操作、Flink 常用Connectors介绍、Flink监控和调优

- Flink实时数据仓库项目实战,了解实时数据仓库的技术架构、从数据摄取到数据展示的全链路数据实时处理的过程,学员能够自主独立的使用Flink进行实时数仓平台的开发工作


课程对象:


大数据平台架构师

一线大数据开发人员

对Flink流批一体数据平台感兴趣的人员


课程大纲:


模块

内容

流批一体架构和实战

 离线数仓技术架构和技术栈介绍

 实时数仓架构架构和技术栈介绍

 流批一体架构的优点

 流批一体架构解决方案

 流批一体架构技术栈详解

 流批一体数据架构的设计

 流批一体数据摄取、整合、处理和应用的解决方案

 流批一体平台架构在互联的实战

 美团流批一体平台架构分享

基于Flink流批一体数仓案例实战

 滴滴基于Flink实现复杂事件处理的案例分享

- Flink+CEP

- Flink状态管理

- Flink运维和优化

- Flink容错机制

- Flink反压机制

- Flink任务的双链路备用

 阿里巴巴基于Flink实时统计案例分享

- 阿里双十一实时架构分享

- 双流数据Join处理

- Flink流失实仓架构详解

- FlinkCEP实时规则引擎详解

Flink技术栈介绍

 FlinkTableAPI介绍

 FlinkSQL介绍

 FlinkCDCConnect介绍

 FlinkCEP复杂事件处理

 FlinkGelly图计算应用

 FlinkML机器学习应用

 PyFlink数据分析和挖掘介绍

 Flink Metrics 与监控

Flink有状态的计算、态管理和容错

 什么是有状态计算

 有状态计算中的数据一致性挑战

 理解state状态

 Operator State 的使用及Redistribute

 Keyed State的使用与Redistribute

 Broadcast State的使用

 Checkpoint核心原理剖析

 Checkpoint使用条件及使用步骤

 Checkpoint相关配置及重启策略

 Savepoint的触发、Job恢复及删除

FlinkDataStreamAPI原理和实战

 DataStream API介绍与使用

 DataStream编程模型

 DataStream类型与转换

 Pipeline与StreamGraph转换

 Transformation

 时间概念与Watermark

 Windows窗口计算和多流合并

 作业链和资源组

 Asynchronous I/O异步API

 Asynchronous I/O异步原理

 

FlinkDataSetAPI介绍和实战

 DataSet API,Transformation

 迭代计算

 广播变量与分布式缓存

 语义注解

 DataSetUtils工具类

Flink TableAPI& SQL实战

 Flink table API原理和使用

 Flink SQL原理和使用

 TableEnviroment原理和使用

 Table Connector注册机制和使用

 TimeStamp与Watermark原理和实战

 Temporal Tables原理实战

 多表关联实战

 与Hive的集成实战

 自定义TableSource、Table Sink和Table Factory实战

 Flink SQL Catalog原理

 项目实战:基于Flink SQL实现数据统计分析

FlinkConnector介绍和实战

 Flink Connector数据源

 FlinkKafkaSource序列化、消费模式

 FlinkKafkaSource容错、动态分区及topic

 FlinkKafkaSink序列化、配置、分区与容错

 自定义Source和Sink

Flink监控和优化

 Flink Metric使用介绍

 FlinkRestAPI介绍和使用

 Backpressure监控与优化

 Checkpointing监控与优化

 Flink内存管理和优化

 窗口和事件事件调试

 HistoryServer服务介绍

Flink实时数据仓库项目实战

 项目导入IDEA和配置

 项目需求和技术架构介绍

 数据摄取模块介绍

- 离线数据摄取(Sqoop)

- 实时数据摄取(mysql+Canal+Kafka)

 实时数据处理模块

- 实时数据仓库分层架构

- Flink+Kafka+Clickhouse数据处理

- 维度和指标梳理

- Clickhouse的SQL接口

- Flink SQL 数据统计和分析

 数据展示模块介绍

 项目运行和效果展示


返回上一级