4006-998-758
3000+课程任你选择
Big Data训练营
研发学院 Big Data训练营 开课时间:2022-02-16
郭俊

目前就职于字节跳动,主要负责以 Hadoop、Spark 为代表的大数据系统在万级节点下的优化;多年Kafka/Hadoop/Spark研究、应用及调优经验。同时拥有丰富的数据仓库建模及调优经验,精通PostgreSQL。曾就职于IBM、Cisco、eBay 等500强外企从事大数据产品研发及数据仓库建模调优工作,负责大数据平台(Spark/Hadoop/Flink/Kafka)优化工作。

查看老师详情
课程内容


课程时长


4天(6小时/天)


课程大纲 

 


第一天

1. 大数据的基石 Zookeeper
  - 1.1 
为什么需要 Zookeeper
  - 1.2 Zookeeper 
原理分析
  - 1.3 Zookeeper 
典型适用场景

2. Spark 核心原理
  - 2.1 RDD vs. Dataframe
  - 2.2 Shuffle 
核心原理与性能调优
  - 2.3 
数据倾斜解决方案

3. Spark SQL 最佳实践
  - 3.1 Spark SQL 原理剖析
  - 3.2 基于规则的优化与基于代价的优化
  - 3.3 自适应执行原理及调优实践

 

第二天

1. Hive 原理
- 1.1 Hive 架构介绍
- 1.2 Hive on MR 常见问题演示
- 1.3 Hive on TEZ 原理介绍

2. CDC 演示
- 2.1 什么是 CDC
- 2.2 canal 原理说明及演示

3. HBase
- 3.1 HBase 
核心原理
- 3.2 HBase 适用场景与最佳实践

4. Kafka Stream 原理分析与实践演练
- 4.1 Kafka 基本原理
- 4.2 Streaming 常见问题
- 4.3 Kafka Stream 核心原理
- 4.4 Kafka Stream 案例演示

 

第三天

1. 批流一体大数据解决方案
  - 1.1 批计算 vs. 流计算
  - 1.2 基于 Apache Beam 的批流一体
  - 1.3 基于 Apache Spark 的批流一体
  - 1.4 基于 Apache Flink 的批流一体
  - 1.5 基于数据湖的批流一体存储

2. 现代大数据架构
  - 2.1 基于 HDFS + Hive + Spark 的数据仓库架构
  - 2.2 基于 Flink + Kafka 的实时数据仓库
  - 2.3 批流一体实时数据仓库

3. streaming machine learning
  - 3.1 
什么场景需要 streaming machine learning
  - 3.2 streaming machine learning 典型方案

 

第四天

1. 数据湖
- 1.1 什么是数据湖
- 1.2 什么是湖仓一体
- 1.3 delta lake / hudi / iceberg 对比分析

2. Trino 实践
- 2.1 Trino vs. Hive vs. Spark SQL
- 2.2 如何自定义函数
- 2.3 Trino 性能调优

返回上一级