4006-998-758
3000+课程任你选择
大数据实战
研发学院 Hive的核心功能 Spark核心功能 MapReduce 开课时间:2021-07-03
徐葳

丰富的IT方面从业经验,曾任职猎豹移动大数据技术专家、中科院大数据研究院大数据技术专家,对大数据生态体系有深入理解。曾主导开发了海量日志数据采集系统、OLAP数据分析平台、数据仓库、PB级日志检索系统、数据中台等。受邀成为郑州工业应用学院特聘大数据讲师。


查看老师详情
课程内容

培训天数

课程模块

课程内容

第一天

(上午)

MapReduce及Hive快速上手

1Hadoop(HDFS+MapReduce+YARN)集群安装部署

2 MapReduce原理剖析

3 Hive的核心原理及安装部署

4 Hive中Database的操作

5 Hive中Table的操作

6 Hive表数据加载的两种模式

7 Hive复合数据类型使用(array\map\struct)

8 Mysql数据如何迁移到Hive中

9 Hive表类型介绍

10 Hive的内部表、外部表、分区表、桶表实操

第一天

(下午)

Hive的核心功能及使用

1 Hive 的视图和索引实操

2 Hive的高级函数

3 Hive中的分组排序取TopN\行转列\列转行

4 Hive中groupby和distinct和over的区别

5 Hive的三种计算引擎分析

(MapReduce\Tez\Spark)

6 【案例】Hive SQL数据分析项目概述

第二天

(上午)

Spark快速上手

1 Spark核心原理剖析

2 Spark集群安装部署模式剖析

3 Spark架构原理

4 Spark 程序开发

5 Spark任务的三种提交模式

6 Spark中的Transformation算子详解

7 Spark中的Action算子详解

第二天

(下午)

Spark核心功能使用

1 RDD持久化原理及应用

2 案例:TopN功能实现

3 宽依赖和窄依赖

4 checkpoint原理及应用详解

5 Spark的性能优化手段

6 Spark sql的使用

7 SparkStreaming的使用

8 【案例】:Spark批处理功能

9 【案例】:Spark streaming流处理功能


课程方式

PPT+参考资料,理论讲解

场景+案例+模拟环境,动手实践

生产环境解决问题经验分享


课程收益

了解大数据中实时框架的核心原理

掌握大数据实时计算框架的使用

了解互联网公司中大数据平台的构建


课程对象

有一定编程基础,想学习和了解大数据实时计算的学员

计算机相关专业,未来向大数据领域方向发展的学员


返回上一级