4006-998-758
3000+课程任你选择
大数据开发技能训练营
研发学院 SparkSQL HBase MapReduce 开课时间:2022-06-17
徐葳

丰富的IT方面从业经验,曾任职猎豹移动大数据技术专家、中科院大数据研究院大数据技术专家,对大数据生态体系有深入理解。曾主导开发了海量日志数据采集系统、OLAP数据分析平台、数据仓库、PB级日志检索系统、数据中台等。受邀成为郑州工业应用学院特聘大数据讲师。


查看老师详情
课程内容

课程大纲



培训天数

课程模块

课程内容

第一天

(上午)

大数据生态圈技术总览

1 数据采集框架分析

2 数据计算框架分析

3 数据存储框架分析

4 数据分析框架分析

5 数据检索矿建分析

6 大数据周边框架

HDFS实操高级内容

7Hadoop原理架构深入剖析

8Hadoop三大核心组件介绍

9 HDFS原理架构深入剖析

10 【实操】HDFS常用Shell命令及高级命令

11 HDFS的高可用和高扩展架构剖析

12 HDFS机架感知策略原理剖析

13 HDFS新特性之纠删码技术深入分析

第一天

(下午)

MapReduce核心编程和YARN的使用

1 MapReduce原理架构深度剖析

2 【实操】MapReduce实战案例开发

3   MapReduce中的Shuffle过程详解

4 【实操】基于自定义Writable实现金融数据分析的实战案例

5 YARN资源管理模型分析

6【实操】YARN中的多资源队列配置和使用

MapReduce源码剖析及性能优化解决方案

7   Inputformat相关源码分析

8   Outputformat相关源码分析

9【实操】小文件问题剖析及实战

10 【实操】数据倾斜问题原理剖析及实战

11 【实操】MapReduce实现数据Join功能(包括Map端 Join和Reduce端Join)

第二天

(上午)

Hive快速上手及核心功能

1Hive原理架构深度剖析

2【实操】Hive中数据库和表的操作

3 【实操】Hive复合数据类型的使用(Array\Map\Struct)

6【实操】Hive的内部表、外部表、分区表和桶表

7 【实操】Hive高级函数的使用

8 【实操】基于Hive SQL的数据分析案例

9 基于HiveSQL的性能优化案例分析(大小表Join、数据倾斜)

第二天

(下午)

HBase核心原理及高级特性

Kylin核心原理及高级特性

1 HBase核心原理及逻辑存储模型分析

2 深入HBase架构原理(核心架构、全局架构)

3 【实操】HBase常用Shell命令及JAVA API的使用

4【实操】HBase列族高级设置(生存时间、版本数、压缩、数据块、布隆过滤器)

5 【实操】HBase调忧策略(包括预分区、Rowkey的设计、链接时间的设置、批量处理的设置、WAL Flag等)

6 Kylin的核心原理及架构分析

7 Kylin中的Project、DataModel和Cube详解

8 【实操】基于Kylin的数据分析案例

第三天

(上午)

Spark核心编程

1 Spark核心原理及架构剖析

2【实操】基于Spark的离线计算程序开发

3【实操】Spark中的Transformation算子详解与实战

4【实操】Spark中的Action算子详解与实战

5 【实操】RDD持久化原理及应用

6 【实操】基于Spark   Core实现分组排序TopN功能

第三天

(下午)

Spark性能优化、SparkSQL、图计算

1 Checkpoint机制核心原理及应用详解

2 Spark的性能优化手段(序列化、内存、并行度等方面的调忧)

3 Spark SQL的使用及新特性(AQE机制、DPP)

4 Spark   SQL深度集成Hive

5 Spark   GraphX(图计算)模块的使用

6【案例】 基于Spark+Neo4j实现的图数据存储和计算

第四天

(上午)

Kafka核心原理及使用

1 Kafka中的生产者和消费者详解

3 核心组件扩展Broker、Producer、Consumer

4 Kafka中的存储策略和容错机制深入剖析

5【实操】生产者和消费者在企业中的高级应用

6【实操】 Kafka中三种语义的使用(至少一次、至多一次和仅一次)

7Kafka核心参数调忧

8Kafka集群监控管理工具(CMAK)

Storm   VS Flink

1 Storm原理架构深度剖析

2 Flink原理架构深度剖析

3 Storm VS   SparkStreaming VS Flink

4 【实操】基于Flink的实时计算任务开发

第四天

(下午)

Flink核心功能及高级特性

1 【实操】Flink   Datastream 常用算子使用

2 【实操】Flink 中的 Window 详解及应用(TimeWindow、CountWindow)

3 Flink 中的 Time 详细分析

4 Flink 中的 Parallel 分析

5 Flink 中的实时数据乱序问题分析及解决方案

6 【实操】Flink 中的 Watermark 机制介绍及实战

7 Flink 中的State 管理与恢复机制详解(涉及State的原理及使用)

8 Flink   SQL在实时计算中的使用

9 Flink   SQL双流Join详解(涉及各种Join场景)

10 【案例】Flink SQL 实现企业级数据流转功能

第五天

(上午)

Redis原理及核心功能

1 Redis的核心原理剖析

2 Redis常用数据类型详解(String、Hash、List、Set、SortedSet)

3 【实操】在Redis中维护平台用户相关信息

4 Redis高级特性之Expire、Pipeline、Info、Monitor、安全策略等

5 【实操】基于Redis实现定时刷新的游戏排行榜功能

6 Redis的持久化方案详解(包括RDB和AOF)

7 Redis架构演进过程分析(单机、主从、Sentinel、集群)

Elasticsearch原理及应用

1   Elasticsearch核心原理及概念分析

2 MySQL和Elasticsearch全方位对比分析

3 【实操】Elasticsearch中RestAPI和JavaAPI的实战应用

第五天

(下午)

Elasticsearch高级功能

ELK架构的原理及使用

1   Elasticsearch集群监控工具的使用-cerebro

2   Elasticsearch分词及倒排索引剖析

3 【实战】Elasticsearch集成中文分词器插件(包括自定义词库、热更新词库)

4 【实战】Elasticsearch   Search查询功能详解(涉及多种查询规则、分页、排序、高亮等)

5   Elasticsearch 分页的性能问题分析

6 【实战】Elasticsearch   中settings和mappings的高级设置

7 【实战】Elasticsearch中的偏好查询和极速查询功能(routing路由功能)

8 【实战】Elasticsearch中索引库模板和索引库别名的使用

9   Elasticsearch SQL的使用及优化策略

10 【实战】基于Elasticsearch+HBase解决海量数据存储及多条件快速复杂查询需求

11 ELK原理及架构分析

12 【实战】基于ELK构建海量日志采集聚合检索平台


返回上一级