HDFS，MapReduce，HBase，SparkSQL

大数据开发技能训练营

研发学院 SparkSQL HBase MapReduce

徐葳

丰富的IT方面从业经验，曾任职猎豹移动大数据技术专家、中科院大数据研究院大数据技术专家，对大数据生态体系有深入理解。曾主导开发了海量日志数据采集系统、OLAP数据分析平台、数据仓库、PB级日志检索系统、数据中台等。受邀成为郑州工业应用学院特聘大数据讲师。

查看老师详情

课程内容

课程大纲

培训天数	课程模块	课程内容
第一天 (上午)	大数据生态圈技术总览	1 数据采集框架分析 2 数据计算框架分析 3 数据存储框架分析 4 数据分析框架分析 5 数据检索矿建分析 6 大数据周边框架
HDFS实操高级内容	7Hadoop原理架构深入剖析 8Hadoop三大核心组件介绍 9 HDFS原理架构深入剖析 10 【实操】HDFS常用Shell命令及高级命令 11 HDFS的高可用和高扩展架构剖析 12 HDFS机架感知策略原理剖析 13 HDFS新特性之纠删码技术深入分析
第一天 (下午)	MapReduce核心编程和YARN的使用	1 MapReduce原理架构深度剖析 2 【实操】MapReduce实战案例开发 3 MapReduce中的Shuffle过程详解 4 【实操】基于自定义Writable实现金融数据分析的实战案例 5 YARN资源管理模型分析 6【实操】YARN中的多资源队列配置和使用
MapReduce源码剖析及性能优化解决方案	7 Inputformat相关源码分析 8 Outputformat相关源码分析 9【实操】小文件问题剖析及实战 10 【实操】数据倾斜问题原理剖析及实战 11 【实操】MapReduce实现数据Join功能(包括Map端 Join和Reduce端Join)
第二天 (上午)	Hive快速上手及核心功能	1Hive原理架构深度剖析 2【实操】Hive中数据库和表的操作 3 【实操】Hive复合数据类型的使用(Array\Map\Struct) 6【实操】Hive的内部表、外部表、分区表和桶表 7 【实操】Hive高级函数的使用 8 【实操】基于Hive SQL的数据分析案例 9 基于HiveSQL的性能优化案例分析(大小表Join、数据倾斜)
第二天 (下午)	HBase核心原理及高级特性 Kylin核心原理及高级特性	1 HBase核心原理及逻辑存储模型分析 2 深入HBase架构原理(核心架构、全局架构) 3 【实操】HBase常用Shell命令及JAVA API的使用 4【实操】HBase列族高级设置（生存时间、版本数、压缩、数据块、布隆过滤器） 5 【实操】HBase调忧策略(包括预分区、Rowkey的设计、链接时间的设置、批量处理的设置、WAL Flag等) 6 Kylin的核心原理及架构分析 7 Kylin中的Project、DataModel和Cube详解 8 【实操】基于Kylin的数据分析案例
第三天 (上午)	Spark核心编程	1 Spark核心原理及架构剖析 2【实操】基于Spark的离线计算程序开发 3【实操】Spark中的Transformation算子详解与实战 4【实操】Spark中的Action算子详解与实战 5 【实操】RDD持久化原理及应用 6 【实操】基于Spark Core实现分组排序TopN功能
第三天 (下午)	Spark性能优化、SparkSQL、图计算	1 Checkpoint机制核心原理及应用详解 2 Spark的性能优化手段(序列化、内存、并行度等方面的调忧) 3 Spark SQL的使用及新特性(AQE机制、DPP) 4 Spark SQL深度集成Hive 5 Spark GraphX(图计算)模块的使用 6【案例】基于Spark+Neo4j实现的图数据存储和计算
第四天 (上午)	Kafka核心原理及使用	1 Kafka中的生产者和消费者详解 3 核心组件扩展Broker、Producer、Consumer 4 Kafka中的存储策略和容错机制深入剖析 5【实操】生产者和消费者在企业中的高级应用 6【实操】 Kafka中三种语义的使用(至少一次、至多一次和仅一次) 7Kafka核心参数调忧 8Kafka集群监控管理工具(CMAK)
Storm VS Flink	1 Storm原理架构深度剖析 2 Flink原理架构深度剖析 3 Storm VS SparkStreaming VS Flink 4 【实操】基于Flink的实时计算任务开发
第四天 (下午)	Flink核心功能及高级特性	1 【实操】Flink Datastream 常用算子使用 2 【实操】Flink 中的 Window 详解及应用(TimeWindow、CountWindow) 3 Flink 中的 Time 详细分析 4 Flink 中的 Parallel 分析 5 Flink 中的实时数据乱序问题分析及解决方案 6 【实操】Flink 中的 Watermark 机制介绍及实战 7 Flink 中的State 管理与恢复机制详解(涉及State的原理及使用) 8 Flink SQL在实时计算中的使用 9 Flink SQL双流Join详解(涉及各种Join场景) 10 【案例】Flink SQL 实现企业级数据流转功能
第五天 (上午)	Redis原理及核心功能	1 Redis的核心原理剖析 2 Redis常用数据类型详解(String、Hash、List、Set、SortedSet) 3 【实操】在Redis中维护平台用户相关信息 4 Redis高级特性之Expire、Pipeline、Info、Monitor、安全策略等 5 【实操】基于Redis实现定时刷新的游戏排行榜功能 6 Redis的持久化方案详解(包括RDB和AOF) 7 Redis架构演进过程分析(单机、主从、Sentinel、集群)
Elasticsearch原理及应用	1 Elasticsearch核心原理及概念分析 2 MySQL和Elasticsearch全方位对比分析 3 【实操】Elasticsearch中RestAPI和JavaAPI的实战应用
第五天 (下午)	Elasticsearch高级功能 ELK架构的原理及使用	1 Elasticsearch集群监控工具的使用-cerebro 2 Elasticsearch分词及倒排索引剖析 3 【实战】Elasticsearch集成中文分词器插件(包括自定义词库、热更新词库) 4 【实战】Elasticsearch Search查询功能详解(涉及多种查询规则、分页、排序、高亮等) 5 Elasticsearch 分页的性能问题分析 6 【实战】Elasticsearch 中settings和mappings的高级设置 7 【实战】Elasticsearch中的偏好查询和极速查询功能(routing路由功能) 8 【实战】Elasticsearch中索引库模板和索引库别名的使用 9 Elasticsearch SQL的使用及优化策略 10 【实战】基于Elasticsearch+HBase解决海量数据存储及多条件快速复杂查询需求 11 ELK原理及架构分析 12 【实战】基于ELK构建海量日志采集聚合检索平台

培训天数

课程模块

课程内容

第一天

(上午)

大数据生态圈技术总览

1 数据采集框架分析

2 数据计算框架分析

3 数据存储框架分析

4 数据分析框架分析

5 数据检索矿建分析

6 大数据周边框架

HDFS实操高级内容

7Hadoop原理架构深入剖析

8Hadoop三大核心组件介绍

9 HDFS原理架构深入剖析

10 【实操】HDFS常用Shell命令及高级命令

11 HDFS的高可用和高扩展架构剖析

12 HDFS机架感知策略原理剖析

13 HDFS新特性之纠删码技术深入分析

第一天

(下午)

MapReduce核心编程和YARN的使用

1 MapReduce原理架构深度剖析

2 【实操】MapReduce实战案例开发

3 MapReduce中的Shuffle过程详解

4 【实操】基于自定义Writable实现金融数据分析的实战案例

5 YARN资源管理模型分析

6【实操】YARN中的多资源队列配置和使用

MapReduce源码剖析及性能优化解决方案

7 Inputformat相关源码分析

8 Outputformat相关源码分析

9【实操】小文件问题剖析及实战

10 【实操】数据倾斜问题原理剖析及实战

11 【实操】MapReduce实现数据Join功能(包括Map端 Join和Reduce端Join)

第二天

(上午)

Hive快速上手及核心功能

1Hive原理架构深度剖析

2【实操】Hive中数据库和表的操作

3 【实操】Hive复合数据类型的使用(Array\Map\Struct)

6【实操】Hive的内部表、外部表、分区表和桶表

7 【实操】Hive高级函数的使用

8 【实操】基于Hive SQL的数据分析案例

9 基于HiveSQL的性能优化案例分析(大小表Join、数据倾斜)

第二天

(下午)

HBase核心原理及高级特性

Kylin核心原理及高级特性

1 HBase核心原理及逻辑存储模型分析

2 深入HBase架构原理(核心架构、全局架构)

3 【实操】HBase常用Shell命令及JAVA API的使用

4【实操】HBase列族高级设置（生存时间、版本数、压缩、数据块、布隆过滤器）

5 【实操】HBase调忧策略(包括预分区、Rowkey的设计、链接时间的设置、批量处理的设置、WAL Flag等)

6 Kylin的核心原理及架构分析

7 Kylin中的Project、DataModel和Cube详解

8 【实操】基于Kylin的数据分析案例

第三天

(上午)

Spark核心编程

1 Spark核心原理及架构剖析

2【实操】基于Spark的离线计算程序开发

3【实操】Spark中的Transformation算子详解与实战

4【实操】Spark中的Action算子详解与实战

5 【实操】RDD持久化原理及应用

6 【实操】基于Spark Core实现分组排序TopN功能

第三天

(下午)

Spark性能优化、SparkSQL、图计算

1 Checkpoint机制核心原理及应用详解

2 Spark的性能优化手段(序列化、内存、并行度等方面的调忧)

3 Spark SQL的使用及新特性(AQE机制、DPP)

4 Spark SQL深度集成Hive

5 Spark GraphX(图计算)模块的使用

6【案例】基于Spark+Neo4j实现的图数据存储和计算

第四天

(上午)

Kafka核心原理及使用

1 Kafka中的生产者和消费者详解

3 核心组件扩展Broker、Producer、Consumer

4 Kafka中的存储策略和容错机制深入剖析

5【实操】生产者和消费者在企业中的高级应用

6【实操】 Kafka中三种语义的使用(至少一次、至多一次和仅一次)

7Kafka核心参数调忧

8Kafka集群监控管理工具(CMAK)

Storm VS Flink

1 Storm原理架构深度剖析

2 Flink原理架构深度剖析

3 Storm VS SparkStreaming VS Flink

4 【实操】基于Flink的实时计算任务开发

第四天

(下午)

Flink核心功能及高级特性

1 【实操】Flink Datastream 常用算子使用

2 【实操】Flink 中的 Window 详解及应用(TimeWindow、CountWindow)

3 Flink 中的 Time 详细分析

4 Flink 中的 Parallel 分析

5 Flink 中的实时数据乱序问题分析及解决方案

6 【实操】Flink 中的 Watermark 机制介绍及实战

7 Flink 中的State 管理与恢复机制详解(涉及State的原理及使用)

8 Flink SQL在实时计算中的使用

9 Flink SQL双流Join详解(涉及各种Join场景)

10 【案例】Flink SQL 实现企业级数据流转功能

第五天

(上午)

Redis原理及核心功能

1 Redis的核心原理剖析

2 Redis常用数据类型详解(String、Hash、List、Set、SortedSet)

3 【实操】在Redis中维护平台用户相关信息

4 Redis高级特性之Expire、Pipeline、Info、Monitor、安全策略等

5 【实操】基于Redis实现定时刷新的游戏排行榜功能

6 Redis的持久化方案详解(包括RDB和AOF)

7 Redis架构演进过程分析(单机、主从、Sentinel、集群)

Elasticsearch原理及应用

1 Elasticsearch核心原理及概念分析

2 MySQL和Elasticsearch全方位对比分析

3 【实操】Elasticsearch中RestAPI和JavaAPI的实战应用

第五天

(下午)

Elasticsearch高级功能

ELK架构的原理及使用

1 Elasticsearch集群监控工具的使用-cerebro

2 Elasticsearch分词及倒排索引剖析

3 【实战】Elasticsearch集成中文分词器插件(包括自定义词库、热更新词库)

4 【实战】Elasticsearch Search查询功能详解(涉及多种查询规则、分页、排序、高亮等)

5 Elasticsearch 分页的性能问题分析

6 【实战】Elasticsearch 中settings和mappings的高级设置

7 【实战】Elasticsearch中的偏好查询和极速查询功能(routing路由功能)

8 【实战】Elasticsearch中索引库模板和索引库别名的使用

9 Elasticsearch SQL的使用及优化策略

10 【实战】基于Elasticsearch+HBase解决海量数据存储及多条件快速复杂查询需求

11 ELK原理及架构分析

12 【实战】基于ELK构建海量日志采集聚合检索平台

返回上一级

课程时长

5天

课程排期

待定

我要报名我要分享

课程推荐

返回上一级