4006-998-758
3000+课程任你选择
Big Data从入门与实践
研发学院 大数据生态圈 Hive的核心功能 开课时间:2021-07-03
徐葳

丰富的IT方面从业经验,曾任职猎豹移动大数据技术专家、中科院大数据研究院大数据技术专家,对大数据生态体系有深入理解。曾主导开发了海量日志数据采集系统、OLAP数据分析平台、数据仓库、PB级日志检索系统、数据中台等。受邀成为郑州工业应用学院特聘大数据讲师。


查看老师详情
课程内容

培训天数

课程模块

课程内容

第一天

(上午)

大数据生态圈技术总览与Hadoop概述

1 大数据平台核心技术总览

2 大数据平台核心技术分类

3 数据采集框架介绍及应用场景分析

4 数据计算(离线+实时)框架介绍及应用场景分析

5 数据存储框架介绍及应用场景分析

6 数据分析框架介绍及应用场景分析

7 数据检索框架介绍及应用场景分析

8 快速了解Hadoop

9 Hadoop3.x的核心细节优化

10 Hadoop大数据平台的选型

第一天

(下午)

HDFS+MapReduce+YARN的原理及使用

1 HDFS核心原理详解

2 HDFS的常用及高级shell命令

3 HDFS体系结构原理详细剖析

4 HDFS的高可用和高扩展架构剖析

5 MapReduce原理深度剖析

6 MapReduce实战案例开发

7 小文件问题剖析

8 数据倾斜问题原理剖析

9 YARN资源管理模型分析

10 YARN中的多资源队列配置和使用

培训天数

课程模块

课程内容

第一天

(上午)

Hive快速上手

1 1 什么是数据仓库

2 数据仓库基础知识

3 数据仓库分层

4 典型数仓系统架构分析

5 Hive的核心原理及安装部署

2 Hive中Database的操作

3 Hive中Table的操作

4 Hive表数据加载的两种模式

5 Hive复合数据类型使用(array\map\struct)

6 Mysql数据如何迁移到Hive中

第一天

(下午)

Hive的核心功能及使用

1 Hive表类型介绍

2 Hive的内部表、外部表、分区表、桶表实操

3 Hive 的视图和索引实操

4 Hive的高级函数

5  Hive中的分组排序取TopN\行转列\列转行

6  Hive中groupby和distinct的区别

7 Hive的三种计算引擎分析(MapReduce\Tez\Spark)

8 【案例】Hive SQL数据分析项目概述

第二天

(上午)

Spark快速上手与核心编程

1 Spark核心原理剖析

2 Spark集群安装部署模式剖析

3 Spark架构原理

4 Spark 程序开发

5 Spark任务的三种提交模式

6 Spark中的Transformation算子详解与实战

7 Spark中的Action算子详解与实战

第二天

(下午)

Spark高级特性与实战

1 RDD持久化原理及应用

2 案例:TopN功能实现

3 宽依赖和窄依赖

4 checkpoint原理及应用详解

5 Spark的性能优化手段

6 Spark sql的使用

7 【案例】:Spark批处理功能

8 【案例】:Spark Core+SparkSQL结合使用

第三天

(上午)

咨询



返回上一级