课程背景
随着大数据时代的快速到来,以及大数据在生产生活中迅速应用,大数据领域如雨后春笋般的出现大量的新技术,如Spark、Hive、Impala等技术,其中Hive、Spark、Impala已经成为大数据技术中最为重要的一部分,被越来越多的企业所使用,但是因大数据技术过于太新,研发人员还没有深入的理解这些技术,在使用的过程中出现各种各样的问题,典型是经常遇到性能问题。Hive、Spark、Hive-SQL、Impala涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围广泛、前景非常广阔。采用大数据技术的目的,主要是为了使大数据处理任务速度更快,效率更高。大数据技术在使用过程中不可避免的需要进行一系列的性能优化,本培训是尹老师总结和归纳多年工作经验,就Spark、Hive、SparkSQL、Shark、Hive-SQL、Imapla等大数据技术的性能调优进行深入剖析,使学员从实操层面提升到大数据技术核心原理层面进行调优,并通过生动的案例展示优化过程与效果,调优的范围包括规划调优、部署调优、硬件调优、网络调优、参数调优、开发调优、算法调优、运行调优、作业调优、数据调优和资源调优等。
课程目标
1、 使学员掌握大数据Spark、Hive-SQL等性能调优思路
2、 使学员掌握分布式的技术原理以及应用场景;
3、 使学员掌握推荐搜索AI、PageRank算法、个性化精准推荐;
4、 使学员掌握Spark、Hive、SparkSQL技术的调优思路、方法、参数设置、开发注意事项;
5、 使学员掌握数据仓库工具Spark、Hive、SparkSQL的调优思路、方法、参数设置;
6、 使学员掌握大数据工具Spark、Hive、SparkSQL的设计思路、运行原理、调优方法、参数设置;
7、 使学员掌握Hive-SQL的分布式架构原理、运行机制、开发方法、运行方法等;
课程对象
1、 本课程适合于大数据分析人员、大数据开发工程师;
2、 本课程适合于业务分析人员、大数据分析师、大数据挖掘工程师;
3、 本课程适合于大数据高级开发工程师、项目经理、技术总监;
4、 本课程适合于企业高层管理人员;
5、 本课程适合于IT运维人员;
课程方式
以课堂讲解、演示、案例分析为主,辅以互动研讨、现场答疑、学以致用。
课程时长
3天(6小时/天)
课程大纲
时间 | 内容 |
第1天 | 第1个主题: 推荐搜索AI(深入剖析推荐搜索AI)(120分钟) 1、 推荐搜索AI 2、 推荐搜索AI原理 3、 推荐搜索AI特征构建 4、 推荐搜索AI深度学习模型设计 5、 推荐搜索AI深度学习模型开发 6、 推荐搜索AI深度学习模型训练 7、 推荐搜索AI深度学习模型调优 8、 推荐搜索AI深度学习模型迁移 9、 推荐搜索AI深度学习模型发布与应用 10、 推荐搜索AI深度学习模型训练过程问题分析与处理 11、 案例:银行在线支付统计的案例
第2个主题: 搜索引擎核心技术实现原理(搜索引擎核心技术实现原理)(60分钟) 1、 搜索引擎核心技术实现原理 2、 搜索引擎总体介绍 3、 网络爬虫技术 4、 中英文分词技术 5、 查询存储技术 6、 全文检索系统 7、 倒排索引 8、 排序算法 9、 PageRank算法 10、 搜索引擎核心技术架构 11、 搜索引擎高并发 12、 分布式技术 13、 大数据技术 14、 搜索引擎核心技术实现原理 15、 移动搜索引擎
第3个主题: PageRank算法(介绍PageRank算法)(60分钟) 1、 PageRank算法简介 2、 PageRank算法原理与实现 3、 PageRank算法 4、 PageRank算法实现 5、 案例:PageRank算法应用案例
第4个主题: 搜索推荐与实现(深度剖析搜索推荐技术,深入挖掘客户需求)(120分钟) 1、 业务理解、算法应用、场景分析 2、 个性化推荐的理论依据 3、 个性化推荐的价值 4、 个性化推荐能达到的目的 5、 个性化推荐的原则 6、 个性化推荐技术发展史 7、 个性化推荐的相关技术 8、 基于用户的常用推荐算法 9、 基于用户的协同过滤推荐 10、 课后练习题:实现个性化搜索精准推荐案例实战 |
时间 | 内容 |
第2天 | 第5个主题: 特征工程(特征工程以及特征工程对人工智能的重要性)(30分钟) 1、 什么是特征工程(Feature Engineering)? 2、 为什么特征工程如此重要? 3、 如何理解特征工程? 4、 如何进行特征工程? 5、 特征工程基本流程 6、 机器学习之特征工程 7、 七种常用的特征工程 8、 特征工程之特征选择
第6个主题: 特征编程方法(介绍特征编码方法)(30分钟) 1、 特征编码方法 2、 one-hot编码 3、 LabelEncoder 4、 factorize 5、 get_dummies
第7个主题: 特征提取(介绍特征提取方法)(30分钟) 1、 特征提取 2、 单个特征 3、 两个变量组合的特征提取 4、 多个变量的特征提取
第8个主题: 单个特征提取(介绍单个特征提取方法)(30分钟) 1、 单个特征 2、 归一化 3、 离散化 4、 dummy coding 5、 缺失值处理 6、 特征变换 a) 基础转换:x、x^2、sqrtx、logx、缩放等 b) 长尾分布:box-cox转换 c) 平均值 d) 数据信息特征 i. 熵 ii. 方差 iii. 分享映射 iv. 特征对类别的关联 v. 互信息和最大信息系数 e) 应用径向基函数、核函数进行平滑转换 f) 高基数特征:数值转换
第9个主题: 数据治理方法论(深入剖析数据治理方法论)(60分钟) 1、 数据治理实操方法论 2、 数据治理的目标与概念 3、 数据治理的架构体系 4、 数据管理成熟度(DMM)模型 5、 数据治理是长期战略 6、 数据治理整体蓝图 7、 数据治理战略 8、 数据治理规划 9、 数据治理组织 10、 数据治理流程 11、 数据治理制度 12、 数据治理技术 13、 案例分享:深入探讨数据治理战略规划,并分享数据治理案例
第10个主题: 算法问题定位工具(介绍算法问题定位工具)(60分钟) 1、 算法问题定位工具 2、 算法中间结果可视化 3、 总结 4、 最佳实践案例:企业最佳实践案例剖析
第11个主题: 大数据调优基础知识(深入剖析大数据调优的概念为后续主题打下基础)(30分钟) 1、 什么是调优 2、 调优什么内容 3、 如何调优 4、 工作中调优过程 5、 实操演示:金融调优案例
第12个主题: 大数据技术核心原理(大数据思路、大数据技术核心原理、大数据技术框架剖析)(30分钟) 1、 大数据特征 2、 大数据分布式集群 3、 大数据分布式文件存储系统 4、 计算迁移 5、 数据迁移 6、 数据就近原则 7、 大数据分布式计算框架 8、 大数据集群采购规划 9、 大数据集群部署规划 10、 大数据集群网络规划 11、 案例:金融企业共享存储实施大数据案例 12、 案例:Hadoop大数据技术核心实现原理 13、 案例:Hadoop分布式与云计算整合的误区 14、 案例:Hadoop分布式存储与RAID
第13个主题: Hive调优基础知识(深入剖析Hive的运行原理)(30分钟) 1、 Hive部署架构 2、 Hive作业基本运行原理 3、 MapReduce性能分析 4、 Hive作业资源占用
第14个主题: Hive调优(深入剖析Hive调优的技术和方法)(30分钟) 1、 Hive调优概述 2、 Hive参数调优 3、 Hive SQL调优 4、 Hive map数据调优 5、 Hive的分区调优 6、 Hive的桶调优 7、 Hive UDF、UDAF调优 8、 其他常用调优方法 9、 数据倾斜处现方法 10、 实操演示:Hive的分区调优案例
第15个主题: Hive调优总结(总结Hive调优的流程、方法、原则)(30分钟) 1、 Hive调优通用流程和方法 2、 Hive调优原则 3、 实操演示:如何分析Hive作业日志 |
时间 | 内容 |
第3天 | 第16个主题: Spark调优基础知识(Spark大数据集群介绍)(60分钟) 1、 Spark集群部署优化 2、 Spark RDD计算模型解析及优化思路 3、 Spark RDD操作剖析 4、 Spark作业基本运行原理 5、 Spark作业资源占用 6、 Spark资源框架YARN、Mesos 7、 实操演示:Spark RDD运行过程剖析案例
第17个主题: 基于SparkWebUI调优(基于SparkWebUI调优大数据程序)(30分钟) 1、 浏览器访问SparkWebUI 2、 Spark WebUI查看作业运行情况 3、 分析Spark WebUI界面参数含义 4、 通过Spark WebUI界面参数分析作业运行性能 5、 Spark WebUI调优 6、 案例:如何通过Spark WebUI分析作业的性能
第18个主题: Spark开发调优(Spark代码开发调优剖析)(30分钟) 1、 Spark开发调优原则 2、 JVM调优 3、 Spark内存Cache调优原理 4、 Spark内存Cache调优思考方法 5、 常见Spark开发调优方法和思路 6、 Spark算法调优和思路 7、 案例:Spark算法优化案例剖析 8、 实操演示:Spark Cache运行案例剖析
第19个主题: Spark资源调优(深入剖析Spark资源调优)(30分钟) 1、 Spark运行参数调优 2、 Spark配置参数调优 3、 资源优化方法,如何设罝合适的资源 4、 SparkTask数、Process数设置 5、 案例:Spark Task调优案例 6、 实操演示:Spark Process调优案例
第20个主题: Spark数据倾斜、计算倾斜调优(剖析Spark数据倾斜原因、计算倾斜原因剖析以及解决方案)(30分钟) 1、 数据倾斜现象,如何判断倾斜 2、 倾斜发生原理 3、 计算倾斜原理 4、 如何定位倾斜代码,如何查看倾斜数据 5、 数据倾斜解决方案 6、 数据重复因子优化 7、 实操演示:数据倾斜案例
第21个主题: Spark shuffle调优(深入剖析典型Spark shuffle原理以及优化方法)(30分钟) 1、 shuffle简介,运行原理 2、 shuffle调优概述 3、 shuffle调优方法,相关参数 4、 实操演示:Spark shuffle优化案例
第22个主题: Spark计算模型介绍与对比(Spark计算模型介绍与对比)(60分钟) 1、 Spark RDD模型 2、 Spark DataSet模型 3、 Spark DataFrame模型 4、 Spark Structured Streaming模型 5、 Spark计算模型之间的对比 6、 Spark计算模型的应用场景对比
第23个主题: Spark调优总结(总结Spark的调优方案与流程)(30分钟) 1、 Spark调优通用流程和方法 2、 Spark调优原则 3、 案例:如何分析Spark作业日志
第24个主题: SparkSQL调优基础知识(深入剖析SparkSQL数据操作调优和实践案例)(30分钟) 1、 SparkSQL基础知识介绍 2、 SparkSQL分布式架构原理 3、 SparkSQL数据模型 4、 SparkSQL作业基本运行原理 5、 SparkSQL使用注意事项 6、 SparkSQLDDL、DML、SQL、函数 7、 SparkSQL作业资源占用 8、 实操演示:银行在线支付统计的案例
第25个主题: SparkSQL调优(SparkSQL具体调优方法介绍)(30分钟) 1、 SparkSQL调优概述 2、 SparkSQL参数调优 3、 SparkSQL SQL调优 4、 SparkSQL分区调优 5、 其他常用调优方法 6、 数据倾斜处理方法 7、 SparkSQL与Shark、Hive、Pig区别剖析 8、 实操演示:SparkSQL调优案例 |