培训天数 | 课程模块 | 课程内容 |
第一天 (上午) | MapReduce及Hive快速上手 | 1Hadoop(HDFS+MapReduce+YARN)集群安装部署 2 MapReduce原理剖析 3 Hive的核心原理及安装部署 4 Hive中Database的操作 5 Hive中Table的操作 6 Hive表数据加载的两种模式 7 Hive复合数据类型使用(array\map\struct) 8 Mysql数据如何迁移到Hive中 9 Hive表类型介绍 10 Hive的内部表、外部表、分区表、桶表实操 |
第一天 (下午) | Hive的核心功能及使用 | 1 Hive 的视图和索引实操 2 Hive的高级函数 3 Hive中的分组排序取TopN\行转列\列转行 4 Hive中groupby和distinct和over的区别 5 Hive的三种计算引擎分析 (MapReduce\Tez\Spark) 6 【案例】Hive SQL数据分析项目概述 |
第二天 (上午) | Spark快速上手 | 1 Spark核心原理剖析 2 Spark集群安装部署模式剖析 3 Spark架构原理 4 Spark 程序开发 5 Spark任务的三种提交模式 6 Spark中的Transformation算子详解 7 Spark中的Action算子详解 |
第二天 (下午) | Spark核心功能使用 | 1 RDD持久化原理及应用 2 案例:TopN功能实现 3 宽依赖和窄依赖 4 checkpoint原理及应用详解 5 Spark的性能优化手段 6 Spark sql的使用 7 SparkStreaming的使用 8 【案例】:Spark批处理功能 9 【案例】:Spark streaming流处理功能 |
课程方式
PPT+参考资料,理论讲解
场景+案例+模拟环境,动手实践
生产环境解决问题经验分享
课程收益
了解大数据中实时框架的核心原理
掌握大数据实时计算框架的使用
了解互联网公司中大数据平台的构建
课程对象
有一定编程基础,想学习和了解大数据实时计算的学员
计算机相关专业,未来向大数据领域方向发展的学员