4006-998-758
3000+课程任你选择
大数据培训
研发学院 大数据 开课时间:2022-02-17
熊磊光

现任某大数据公司技术总监

曾任华为软件工程师

中国农业大学 信电学院自动化硕士

10年以上软件开发和系统架构设计工作经验,历任软件工程师、高级工程师、技术经理、部门经理、架构师。现公司致力于开发全生命周期的大数据存储,以及大数据平台产品,目前集中在运营商、金融、归档等行业和业务方向。从事技术培训工作5年以上,主讲软件开发和大数据相关技术课程,能够运用 Python, Java, C++等语言,精通Spark、Hadoop, Hive, Map-Reduce 分布式计算系统设计算法,主持和参与过多个大型开发项目,具备架构设计、软件开发和数据分析挖掘能力。具备培训课程开发和组织能力。


查看老师详情
课程内容


课程大纲


《大数据开发技能(高级)》3天

第一天

一、hive高级以及实战

1、Hive 外部表的讲解

2、Hive 分区表

3、Hive 常见查询

4、Hive UDF编程

5、Hive中使用snappy压缩

6、Hive Storage Format讲解

7、Hive 企业使用优化

8、项目实战:自定义UDF去除数据双引号项目实战

9、项目实战:自定义UDF转换日期时间数据

10、依据业务编写HiveQL分析数

二spark 中级实战篇自定义函数

1、实战:UDF自定义函数

2、实战:UDAF自定义聚合函数

3、工作原理剖析以及性能优化

4、实战:与Spark Core整合之每日top3热点搜索词统计案例

5、核心源码深度剖析(DataFrame lazy特性、Optimizer优化策略等)

6、延伸知识之Hive On Spark

第二天

三、Spark Streaming

1、大数据实时计算介绍

2、DStream以及基本工作原理

3、与Storm的对比分析

4、实时wordcount程序开发

5、StreamingContext详解

6、输入DStream和Receiver详解

7、案例实战:输入DStream之基础数据源以及基于HDFS的实时wordcount

8、输入DStream之Kafka数据源实战(基于Receiver的方式)

9、输入DStream之Kafka数据源实战(基于Direct的方式)

10、DStream的transformation操作概览

11、案例实战:updateStateByKey以及基于缓存的实时wordcount

12、案例实战:transform以及广告计费日志实时黑名单过滤

13、案例实战:window滑动窗口以及热点搜索词滑动统计

14、DStream的output操作以及foreachRDD性能优化详解

15、案例实战:与Spark SQL结合使用之top3热门商品实时统计

16、缓存与持久化机制详解

17、Checkpoint机制详解(Driver高可靠方案详解)

18、部署、升级和监控实时应用程序

19、容错机制以及事务语义详解

20、架构原理深度剖析

21、StreamingContext初始化与Receiver启动原理剖析与源码分析

22、数据接收原理剖析与源码分析

23、数据处理原理剖析与源码分析(block与batch关系透彻解析)

24、性能调优详解

四、Spark内核源码深度剖析

1、Spark内核架构深度剖析

2、宽依赖与窄依赖深度剖析

3、基于Yarn的两种提交模式深度剖析

4、SparkContext初始化原理剖析与源码分析

5、Master主备切换机制原理剖析与源码分析

6、Master注册机制原理剖析与源码分析

7、Master状态改变处理机制原理剖析与源码分析

8、Master资源调度算法原理剖析与源码分析

9、Worker原理剖析与源码分析  

10、job触发流程原理剖析与源码分析

11、DAGScheduler原理剖析与源码分析(stage划分算法与task最佳位置算法)

12、TaskScheduler原理剖析与源码分析(task分配算法)

13、Executor原理剖析与源码分析

14、Task原理剖析与源码分析

15、Shuffle原理剖析与源码分析(普通Shuffle与优化后的Shuffle)

16、BlockManager原理剖析与源码分析(Spark底层存储机制)

17、CacheManager原理剖析与源码分析

18、Checkpoint原理剖析与源码分析

第三天

五、Spark性能优化

1、性能优化概览

2、诊断内存的消耗

3、高性能序列化类库

4、优化数据结构

5、对多次使用的RDD进行持久化或Checkpoint

6、使用序列化的持久化级别

7、Java虚拟机垃圾回收调优

8、提高并行度

9、广播共享数据

10、数据本地化

11、reduceByKey和groupByKey

12、shuffle性能优化

六 项目实战: spark案例用户标签系统实现精准营销

1.   用户标签系统介绍

2.   数据同步

3.   数据清洗

4.   指标算法及标签ETL

5.     itag UI

《大数据实战培训》2天

第一天

1、环境搭建和大数据安装

项目的简介

项目的背景

项目流程演示

php展示统计分析之后的数据免费  

大数据架构介绍并且企业使用的测试集群环境和人员配置

VM的安装免费

centos的安装和网络配置

通过第三方连接centos的方法

CentOS的yum源更新已经关闭防火墙

JAVA的安装和hadoop安装

完全分布式搭建

通过hadoop自带的demo运行单词统计

写一个sh脚本,可以通过一台机器控制多台机器

hadoop常用的命令简单介绍

2、离线数据处理

CentOS的yum源更新已经关闭防火墙

JAVA的安装和hadoop安装

完全分布式搭建

通过hadoop自带的demo运行单词统计

写一个sh脚本,可以通过一台机器控制多台机器

hadoop常用的命令简单介绍

maven的安装

maven的使用时出现的问题以及解决问题方法

MAPREDUCE 示例编写及编程规范

安装时间同步工具,让所有电脑进行同步

Hive简介和工作流程

Mysql的安装,centos7安装mysql注意点

安装Hive,并且使用Hive做一个小案例

把txt文件的数据导入到Hive表中

Flume采集系统结构图

Flume的安装部署和实战

sqoop数据迁移和安装

sqoop数据从hadoop里面导入到mysql里面

sqoop数据从mysql里面导入到hadoop里面

Azkaban介绍和安装

Azkaban创建SSL配置和配置文件

Azkaban实战通过5个不同场景介绍原理

第二天

3、项目业务处理

电视采集项目流程篇之通过linux日志收集数据到hdfs上面

电视采集项目流程篇之通过MAPREDUCE 把收集数据进行清洗

电视采集项目流程篇之清洗数据绑定到hive表中

电视采集项目流程篇之根据hive绑定数据统计计算保存到hive表中

电视采集项目流程篇之把hive表中数据导入到mysql中

电视采集项目流程篇之安装php环境并且快速熟悉php语法

电视采集项目流程篇之安装php和echarts进行结合展示图表

电视采集项目流程篇之Azkaban调度脚本的编写

电视采集项目流程篇之Azkaban流程调度演示,最终在php页面展示

hadoop和hive项目怎么平滑的转到spark上面介绍

4、项目迁移到spark上

Spark介绍和整体架构

Spark历史和特点

Spark下载源码和安装和使用

Spark创建RDD集合

Spark中transformation的介绍

Spark中action的介绍

Spark SQL发展史

HiveContext

Spark SQL和DataFrame

电视采集项目流程如何把hadoop项目平滑过渡到spark项目上

电视采集项目流程spark篇通过sparksql处理业务逻辑上

电视采集项目流程spark篇通过sparksql处理业务逻辑下

sparkstreaming实时统计观看量


返回上一级