课程时长
课程大纲
第一天
1. 大数据的基石 Zookeeper
- 1.1 为什么需要 Zookeeper
- 1.2 Zookeeper 原理分析
- 1.3 Zookeeper 典型适用场景
2. Spark 核心原理
- 2.1 RDD vs. Dataframe
- 2.2 Shuffle 核心原理与性能调优
- 2.3 数据倾斜解决方案
3. Spark SQL 最佳实践
- 3.1 Spark SQL 原理剖析
- 3.2 基于规则的优化与基于代价的优化
- 3.3 自适应执行原理及调优实践
第二天
1. Hive 原理
- 1.1 Hive 架构介绍
- 1.2 Hive on MR 常见问题演示
- 1.3 Hive on TEZ 原理介绍
2. CDC 演示
- 2.1 什么是 CDC
- 2.2 canal 原理说明及演示
3. HBase
- 3.1 HBase 核心原理
- 3.2 HBase 适用场景与最佳实践
4. Kafka Stream 原理分析与实践演练
- 4.1 Kafka 基本原理
- 4.2 Streaming 常见问题
- 4.3 Kafka Stream 核心原理
- 4.4 Kafka Stream 案例演示
第三天
1. 批流一体大数据解决方案
- 1.1 批计算 vs. 流计算
- 1.2 基于 Apache Beam 的批流一体
- 1.3 基于 Apache Spark 的批流一体
- 1.4 基于 Apache Flink 的批流一体
- 1.5 基于数据湖的批流一体存储
2. 现代大数据架构
- 2.1 基于 HDFS + Hive + Spark 的数据仓库架构
- 2.2 基于 Flink + Kafka 的实时数据仓库
- 2.3 批流一体实时数据仓库
3. streaming machine learning
- 3.1 什么场景需要 streaming machine learning
- 3.2 streaming machine learning 典型方案
第四天
1. 数据湖
- 1.1 什么是数据湖
- 1.2 什么是湖仓一体
- 1.3 delta lake / hudi / iceberg 对比分析
2. Trino 实践
- 2.1 Trino vs. Hive vs. Spark SQL
- 2.2 如何自定义函数
- 2.3 Trino 性能调优