Big Data

Big Data原理与实践（应届生）

研发学院 Big Data

郭俊

目前就职于字节跳动，主要负责以 Hadoop、Spark 为代表的大数据系统在万级节点下的优化；多年Kafka/Hadoop/Spark研究、应用及调优经验。同时拥有丰富的数据仓库建模及调优经验，精通PostgreSQL。曾就职于IBM、Cisco、eBay 等500强外企从事大数据产品研发及数据仓库建模调优工作，负责大数据平台（Spark/Hadoop/Flink/Kafka）优化工作。

查看老师详情

课程内容

课程大纲

day 1

1. 大数据overview

1.1 大数据的特点

1.2 Google大数据三篇论文及对应的系统核心原理

1.3 主流大数据系统简介

1.4 lambda 架构介绍

1.5 kappa 架构介绍

2. 大数据的基石 Zookeeper

2.1 为什么需要 Zookeeper

2.2 Zookeeper 原理分析

2.3 Zookeeper 典型适用场景

3. Spark 核心原理

3.1 RDD vs. Dataframe

3.2 Shuffle 核心原理与性能调优

3.3 数据倾斜解决方案

day 2

4. Hive 原理

4.1 Hive 架构介绍

4.2 Hive on MR 常见问题演示

4.3 Hive on TEZ 原理介绍

5. Spark SQL 最佳实践

5.1 Spark SQL 原理剖析

5.2 基于规则的优化与基于代价的优化

5.3 自适应执行原理及调优实践

6. HBase

6.1 HBase 核心原理

6.2 HBase 适用场景与最佳实践

day 3

7. Kafka Stream 原理分析与实践演练

7.1 Kafka 基本原理

7.2 Streaming 常见问题

7.3 Kafka Stream 核心原理

7.4 Kafka Stream 案例演示

8. 数据湖

8.1 什么是数据湖

8.2 什么是湖仓一体

8.3 delta lake / hudi / iceberg 对比分析

返回上一级

课程时长

3天

课程排期

待定

我要报名我要分享

课程推荐

返回上一级