培训天数 | 课程模块 | 课程内容 |
第一天 (上午) | 大数据生态圈技术总览与Hadoop概述 | 1 大数据平台核心技术总览 2 大数据平台核心技术分类 3 数据采集框架介绍及应用场景分析 4 数据计算(离线+实时)框架介绍及应用场景分析 5 数据存储框架介绍及应用场景分析 6 数据分析框架介绍及应用场景分析 7 数据检索框架介绍及应用场景分析 8 快速了解Hadoop 9 Hadoop3.x的核心细节优化 10 Hadoop大数据平台的选型 |
第一天 (下午) | HDFS+MapReduce+YARN的原理及使用 | 1 HDFS核心原理详解 2 HDFS的常用及高级shell命令 3 HDFS体系结构原理详细剖析 4 HDFS的高可用和高扩展架构剖析 5 MapReduce原理深度剖析 6 MapReduce实战案例开发 7 小文件问题剖析 8 数据倾斜问题原理剖析 9 YARN资源管理模型分析 10 YARN中的多资源队列配置和使用 |
培训天数 | 课程模块 | 课程内容 |
第一天 (上午) | Hive快速上手 | 1 1 什么是数据仓库 2 数据仓库基础知识 3 数据仓库分层 4 典型数仓系统架构分析 5 Hive的核心原理及安装部署 2 Hive中Database的操作 3 Hive中Table的操作 4 Hive表数据加载的两种模式 5 Hive复合数据类型使用(array\map\struct) 6 Mysql数据如何迁移到Hive中 |
第一天 (下午) | Hive的核心功能及使用 | 1 Hive表类型介绍 2 Hive的内部表、外部表、分区表、桶表实操 3 Hive 的视图和索引实操 4 Hive的高级函数 5 Hive中的分组排序取TopN\行转列\列转行 6 Hive中groupby和distinct的区别 7 Hive的三种计算引擎分析(MapReduce\Tez\Spark) 8 【案例】Hive SQL数据分析项目概述 |
第二天 (上午) | Spark快速上手与核心编程 | 1 Spark核心原理剖析 2 Spark集群安装部署模式剖析 3 Spark架构原理 4 Spark 程序开发 5 Spark任务的三种提交模式 6 Spark中的Transformation算子详解与实战 7 Spark中的Action算子详解与实战 |
第二天 (下午) | Spark高级特性与实战 | 1 RDD持久化原理及应用 2 案例:TopN功能实现 3 宽依赖和窄依赖 4 checkpoint原理及应用详解 5 Spark的性能优化手段 6 Spark sql的使用 7 【案例】:Spark批处理功能 8 【案例】:Spark Core+SparkSQL结合使用 |
第三天 (上午) | 咨询 |