课程大纲
day 1
1. 大数据overview
1.1 大数据的特点
1.2 Google大数据三篇论文及对应的系统核心原理
1.3 主流大数据系统简介
1.4 lambda 架构介绍
1.5 kappa 架构介绍
2. 大数据的基石 Zookeeper
2.1 为什么需要 Zookeeper
2.2 Zookeeper 原理分析
2.3 Zookeeper 典型适用场景
3. Spark 核心原理
3.1 RDD vs. Dataframe
3.2 Shuffle 核心原理与性能调优
3.3 数据倾斜解决方案
day 2
4. Hive 原理
4.1 Hive 架构介绍
4.2 Hive on MR 常见问题演示
4.3 Hive on TEZ 原理介绍
5. Spark SQL 最佳实践
5.1 Spark SQL 原理剖析
5.2 基于规则的优化与基于代价的优化
5.3 自适应执行原理及调优实践
6. HBase
6.1 HBase 核心原理
6.2 HBase 适用场景与最佳实践
day 3
7. Kafka Stream 原理分析与实践演练
7.1 Kafka 基本原理
7.2 Streaming 常见问题
7.3 Kafka Stream 核心原理
7.4 Kafka Stream 案例演示
8. 数据湖
8.1 什么是数据湖
8.2 什么是湖仓一体
8.3 delta lake / hudi / iceberg 对比分析