4006-998-758
3000+课程任你选择
开源大数据技术 Spark、Hbase、Flink技术栈实训
研发学院 数据分析 系统架构 Spark 开课时间:2021-07-03
刘刚

有着10年基于大数据平台数据建模、数据治理、数据分析和挖掘的大型数据仓库项目架构实施经验,实施过基于Hadoop平台PageRank算法的实现,在大数据架构、开发、运维和优化、数据集成、数据湖(Data Lake)、数据建模、数据挖掘/机器学习、实时推荐等方面有丰富经验,了解大数据在互联网、金融、电信方面的应用、落地和使用场景。

查看老师详情
课程内容

课程收益:


深度了解主流大数据系统的系统架构,组件交互,及其内核工作与运行机制;了解大数据平台常用的以希望数据分析和实时数据处理技术


课程特点:


以主流大数据系统的原理、架构、部署、运维为脉络,分别介绍Spark,HBase和 Flink主流大数据平台系统;原理和案例结合,让学员快速掌握常用大数据平台的技术,能够独立使用大数据平台相关的技术实现相关的数据应用。


课程对象:


对大数据平台的开发感兴趣的同学、或转型大数据平台的技术人员离线数据处理和实时数据处理工程师


课程安排:



时间

内容

第一天

第1个主题: 大数据生态系统介绍(目的整体了解开源大数据的技术体系)

1、 开源大数据技术架构

2、 开源大数据常用组件之间的依赖关系

3、 离线计算框架介绍

4、 —Mapreduce、Hive、Tez、Presto、Kylin

5、 实时查询框架介绍

6、 —NoSQL、Hbase

7、 实时计算框架介绍

8、 —Kafka、Storm、Spark Streaming、flink

9、 内存计算框架介绍

10、 —Spark、SparkSQL、SparkMllib、SparkR

11、 前沿大数据技术介绍

12、 —Flink、Drill、Druid、KUDU等

13、 海量日志快速检索架构

14、 —ELK(Elasticsearch、Logstash、Kibana)等

2个主题:NoSQL和Hbase实操(目的NoSQL的应用场景,了解Hbase的数据库的应用场景)

1、  NoSQL介绍

2、 NoSQL应用场景

3、 Hbase的架构原理

4、 Hbase核心概念详解(HMaster、HRegionServer、Store、StoreFile、HFile、HLog和MetaStore)

5、 Hbase自带的namesapce和Meta表详解

6、 HBase逻辑视图介绍

7、 HBase物理视图介绍

8、 HBase的RowKey设计原则

9、 HBase BloomFilter的介绍

10、 Hbase表的设计案例

课堂实操:hbase企业级使用场景介绍 

3个主题:kafka实战

1、 Kafka的架构

2、 Kafka的功能和应用场景介绍

3、 Kafka的数据发布和订阅应用

4、 Kafka企业级应用架构案例介绍

4个模块  Spark技术栈介绍(目的掌握Spark大数据平台的功能)

1、  Spark生态系统架构介绍

2、 Spark Core介绍

3、 Spark SQL介绍

4、 Spark Streaming介绍

5、 Spark 2.0 Structured Streaming介绍

6、 Spark Mllib介绍

7、 Spark Graphx介绍

5个模块、Spark核心原理和常用功能介绍(目的掌握Spark大数据平台的功能)

1、  Spark的编程模型

2、 Spark编程模型解析

3、 Partition实现机制

4、 RDD的特点、操作、依赖关系

5、 Transformation RDD详解

6、 Action RDD详解

7、 Spark的累加器详解

8、 Spark的广播变量详解

9、 Spark容错机制

10、 lineage和checkpoint详解

11、 Spark的运行方式

12、 Spark的Shuffle原理详解

      —Sort-Based原理

      —Hash-Based原理

13、 Spark2.0的新特性

14、 Spark DataFrame和DateSet介绍

第二天

6个主题:sparkSQL、DataFram和DataSet实战

1、 Spark SQL原理

2、 Spark SQL的Catalyst优化器

3、 Spark SQL和Hive连接

4、 DataFrame和DataSet应用

5、 Dataframe、DataSet和SQL的比较

6、 SparkSQL parquet格式实战

7、 Spark SQL自定义UDF和UDAF

8、 Spark SQL 读取txt、json、csv等文件介绍

9、 Spark SQL 读写关系型数据库介绍(mysql为例)

10、 Spark SQL reflect函数介绍

11、 Spark SQL案例实操

7个主题:流式计算技术介绍(目的掌握大数据平台流式计算任务的架构)

1、 Structured Streaming架构和原理介绍

2、 Structured Streaming 功能介绍

3、 Structured Streaming 应用场景介绍

4、 Structured Streaming 实时性介绍

5、 Flink 架构和原理

6、 Flink的功能介绍

7、 Flink的实时性介绍

8、 Storm、Structured Streaming和Flink之间的优缺点比较

课堂实操:Structured Streaming实时计算实操

第二天

第8个主题:Flink技术实战(目的:掌握大数据平台海量数据快速检索的应用的功能和场景)

8、 Flink和Spark的深度比较

9、 Flink中的重要角

10、 无界数据流与有界数据流

11、 Flink数据流编程模型

12、 Flink的应用场景

13、 DataSet API开发

14、 Flink Accumulators & Counters

15、 Flink的分布式缓存

16、 DataStream开发

17、 基于kafka的source操作

18、 基于mysql的source操作

19、 Flink的状态管理

20、 Flink容错

21、 Flink SQL实战

22、 Flink CEP实战

23、 课堂实操:Kafka+Flink CEP+Flink SQL实战

课堂实操:使用Spark Core、Structured Streaming和SparkSQL分析数据

第9个主题:案例实战(目的大数据在金融行业的常用应用场景和相关的技术实现为指导,让学员能够对所学的大数据技术能够进行贯通,实际解决大数据在金融行业的应用落地)

(1) Structured Streaming+Kafka实现实时客户行为分析应用

(2) Flink+Kafka实时大数据分析实战案例

(3) 案例总结和答疑



返回上一级