课程大纲
《大数据开发技能(高级)》3天 | |
第一天 | 一、hive高级以及实战 1、Hive 外部表的讲解 2、Hive 分区表 3、Hive 常见查询 4、Hive UDF编程 5、Hive中使用snappy压缩 6、Hive Storage Format讲解 7、Hive 企业使用优化 8、项目实战:自定义UDF去除数据双引号项目实战 9、项目实战:自定义UDF转换日期时间数据 10、依据业务编写HiveQL分析数 二spark 中级实战篇自定义函数 1、实战:UDF自定义函数 2、实战:UDAF自定义聚合函数 3、工作原理剖析以及性能优化 4、实战:与Spark Core整合之每日top3热点搜索词统计案例 5、核心源码深度剖析(DataFrame lazy特性、Optimizer优化策略等) 6、延伸知识之Hive On Spark |
第二天 | 三、Spark Streaming 1、大数据实时计算介绍 2、DStream以及基本工作原理 3、与Storm的对比分析 4、实时wordcount程序开发 5、StreamingContext详解 6、输入DStream和Receiver详解 7、案例实战:输入DStream之基础数据源以及基于HDFS的实时wordcount 8、输入DStream之Kafka数据源实战(基于Receiver的方式) 9、输入DStream之Kafka数据源实战(基于Direct的方式) 10、DStream的transformation操作概览 11、案例实战:updateStateByKey以及基于缓存的实时wordcount 12、案例实战:transform以及广告计费日志实时黑名单过滤 13、案例实战:window滑动窗口以及热点搜索词滑动统计 14、DStream的output操作以及foreachRDD性能优化详解 15、案例实战:与Spark SQL结合使用之top3热门商品实时统计 16、缓存与持久化机制详解 17、Checkpoint机制详解(Driver高可靠方案详解) 18、部署、升级和监控实时应用程序 19、容错机制以及事务语义详解 20、架构原理深度剖析 21、StreamingContext初始化与Receiver启动原理剖析与源码分析 22、数据接收原理剖析与源码分析 23、数据处理原理剖析与源码分析(block与batch关系透彻解析) 24、性能调优详解 四、Spark内核源码深度剖析 1、Spark内核架构深度剖析 2、宽依赖与窄依赖深度剖析 3、基于Yarn的两种提交模式深度剖析 4、SparkContext初始化原理剖析与源码分析 5、Master主备切换机制原理剖析与源码分析 6、Master注册机制原理剖析与源码分析 7、Master状态改变处理机制原理剖析与源码分析 8、Master资源调度算法原理剖析与源码分析 9、Worker原理剖析与源码分析 10、job触发流程原理剖析与源码分析 11、DAGScheduler原理剖析与源码分析(stage划分算法与task最佳位置算法) 12、TaskScheduler原理剖析与源码分析(task分配算法) 13、Executor原理剖析与源码分析 14、Task原理剖析与源码分析 15、Shuffle原理剖析与源码分析(普通Shuffle与优化后的Shuffle) 16、BlockManager原理剖析与源码分析(Spark底层存储机制) 17、CacheManager原理剖析与源码分析 18、Checkpoint原理剖析与源码分析 |
第三天 | 五、Spark性能优化 1、性能优化概览 2、诊断内存的消耗 3、高性能序列化类库 4、优化数据结构 5、对多次使用的RDD进行持久化或Checkpoint 6、使用序列化的持久化级别 7、Java虚拟机垃圾回收调优 8、提高并行度 9、广播共享数据 10、数据本地化 11、reduceByKey和groupByKey 12、shuffle性能优化 六 项目实战: spark案例用户标签系统实现精准营销 1. 用户标签系统介绍 2. 数据同步 3. 数据清洗 4. 指标算法及标签ETL 5. itag UI |
《大数据实战培训》2天 | |
第一天 | 1、环境搭建和大数据安装 项目的简介 项目的背景 项目流程演示 php展示统计分析之后的数据免费 大数据架构介绍并且企业使用的测试集群环境和人员配置 VM的安装免费 centos的安装和网络配置 通过第三方连接centos的方法 CentOS的yum源更新已经关闭防火墙 JAVA的安装和hadoop安装 完全分布式搭建 通过hadoop自带的demo运行单词统计 写一个sh脚本,可以通过一台机器控制多台机器 hadoop常用的命令简单介绍 2、离线数据处理 CentOS的yum源更新已经关闭防火墙 JAVA的安装和hadoop安装 完全分布式搭建 通过hadoop自带的demo运行单词统计 写一个sh脚本,可以通过一台机器控制多台机器 hadoop常用的命令简单介绍 maven的安装 maven的使用时出现的问题以及解决问题方法 MAPREDUCE 示例编写及编程规范 安装时间同步工具,让所有电脑进行同步 Hive简介和工作流程 Mysql的安装,centos7安装mysql注意点 安装Hive,并且使用Hive做一个小案例 把txt文件的数据导入到Hive表中 Flume采集系统结构图 Flume的安装部署和实战 sqoop数据迁移和安装 sqoop数据从hadoop里面导入到mysql里面 sqoop数据从mysql里面导入到hadoop里面 Azkaban介绍和安装 Azkaban创建SSL配置和配置文件 Azkaban实战通过5个不同场景介绍原理 |
第二天 | 3、项目业务处理 电视采集项目流程篇之通过linux日志收集数据到hdfs上面 电视采集项目流程篇之通过MAPREDUCE 把收集数据进行清洗 电视采集项目流程篇之清洗数据绑定到hive表中 电视采集项目流程篇之根据hive绑定数据统计计算保存到hive表中 电视采集项目流程篇之把hive表中数据导入到mysql中 电视采集项目流程篇之安装php环境并且快速熟悉php语法 电视采集项目流程篇之安装php和echarts进行结合展示图表 电视采集项目流程篇之Azkaban调度脚本的编写 电视采集项目流程篇之Azkaban流程调度演示,最终在php页面展示 hadoop和hive项目怎么平滑的转到spark上面介绍 4、项目迁移到spark上 Spark介绍和整体架构 Spark历史和特点 Spark下载源码和安装和使用 Spark创建RDD集合 Spark中transformation的介绍 Spark中action的介绍 Spark SQL发展史 HiveContext Spark SQL和DataFrame 电视采集项目流程如何把hadoop项目平滑过渡到spark项目上 电视采集项目流程spark篇通过sparksql处理业务逻辑上 电视采集项目流程spark篇通过sparksql处理业务逻辑下 sparkstreaming实时统计观看量 |