4006-998-758
3000+课程任你选择
推荐搜索方向的AI和性能优化
研发学院 推荐搜索方向的AI和性能优化 开课时间:2022-03-08
尹立庆

多年从事容器技术、云计算、物联网研发工作经验。北航移动云计算硕士。Cloudera大数据认证(图1),项目管理师(PMP)认证(图2),主要研究方向包括容器技术、云计算、物联网、项目管理等;曾就职于阿里等互联网企业,IBM、华为等知名大型企业,现任某大型知名互联网企业首席架构,负责容器技术、云计算、物联网、PaaS平台研发工作。

IT从业近二十年,秉承理论与实践相结合,在学习中实践,在实践中学习,积累了丰富的理论与实践经验,并且乐于将自己的经验分享。尹老师具有敏锐的目光与头脑,发现并集成整合社会资源,为企业节省资源并创造价值,达到为合作伙伴创收的目的。曾为多家国内知名企业提供培训与咨询,包含阿里集团、华为、中国移动、中国电信、中国联通、当当网、中石油、中石化、中国电网、中国银行、中国工商银行、浦发银行、阿尔卡特朗讯、中航国际等。拥有云计算、物联网、大流量、高并发、分布式的大型网站架构和设计经验。曾主导过多个云计算、物联网、私有云、公有云建设项目,早些年也主导过ERP、CMS等软件项目,积累了丰富的实践经验,这些项目中包含多个数百万、上千万的大型项目。项目经历:呼叫中心人工智能客服研发项目、贵州省政府云呼叫中心建设项目、广东发展银行电营、运维大数据分析项目、中石油工程设计西南分公司云计算项目评审委员、中石油大数据挖掘项目,电商库存预测大数据分析项目、大型ERP、电子商务、CRM、电子政务等多个项目。


查看老师详情
课程内容

课程背景


随着大数据时代的快速到来,以及大数据在生产生活中迅速应用,大数据领域如雨后春笋般的出现大量的新技术,如Spark、Hive、Impala等技术,其中Hive、Spark、Impala已经成为大数据技术中最为重要的一部分,被越来越多的企业所使用,但是因大数据技术过于太新,研发人员还没有深入的理解这些技术,在使用的过程中出现各种各样的问题,典型是经常遇到性能问题。Hive、Spark、Hive-SQL、Impala涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围广泛、前景非常广阔。采用大数据技术的目的,主要是为了使大数据处理任务速度更快,效率更高。大数据技术在使用过程中不可避免的需要进行一系列的性能优化,本培训是尹老师总结和归纳多年工作经验,就Spark、Hive、SparkSQL、Shark、Hive-SQL、Imapla等大数据技术的性能调优进行深入剖析,使学员从实操层面提升到大数据技术核心原理层面进行调优,并通过生动的案例展示优化过程与效果,调优的范围包括规划调优、部署调优、硬件调优、网络调优、参数调优、开发调优、算法调优、运行调优、作业调优、数据调优和资源调优等。


课程目标


    1、 使学员掌握大数据Spark、Hive-SQL等性能调优思路

    2、 使学员掌握分布式的技术原理以及应用场景;

    3、 使学员掌握推荐搜索AI、PageRank算法、个性化精准推荐;

    4、 使学员掌握Spark、Hive、SparkSQL技术的调优思路、方法、参数设置、开发注意事项;

    5、 使学员掌握数据仓库工具Spark、Hive、SparkSQL的调优思路、方法、参数设置;

    6、 使学员掌握大数据工具Spark、Hive、SparkSQL的设计思路、运行原理、调优方法、参数设置;

    7、 使学员掌握Hive-SQL的分布式架构原理、运行机制、开发方法、运行方法等;

 

课程对象 


     1、 本课程适合于大数据分析人员、大数据开发工程师;

     2、 本课程适合于业务分析人员、大数据分析师、大数据挖掘工程师;

     3、 本课程适合于大数据高级开发工程师、项目经理、技术总监;

     4、 本课程适合于企业高层管理人员;

     5、 本课程适合于IT运维人员;


课程方式 


以课堂讲解、演示、案例分析为主,辅以互动研讨、现场答疑、学以致用。

 

课程时长 


3天(6小时/天)

 

课程大纲 


时间

内容

第1天

 第1个主题:   推荐搜索AI(深入剖析推荐搜索AI)(120分钟)

1、 推荐搜索AI

2、 推荐搜索AI原理

3、 推荐搜索AI特征构建

4、 推荐搜索AI深度学习模型设计

5、 推荐搜索AI深度学习模型开发

6、 推荐搜索AI深度学习模型训练

7、 推荐搜索AI深度学习模型调优

8、 推荐搜索AI深度学习模型迁移

9、 推荐搜索AI深度学习模型发布与应用

10、 推荐搜索AI深度学习模型训练过程问题分析与处理

11、 案例:银行在线支付统计的案例

 

第2个主题: 搜索引擎核心技术实现原理(搜索引擎核心技术实现原理)(60分钟)

1、 搜索引擎核心技术实现原理

2、 搜索引擎总体介绍

3、 网络爬虫技术

4、 中英文分词技术

5、 查询存储技术

6、 全文检索系统

7、 倒排索引

8、 排序算法

9、 PageRank算法

10、 搜索引擎核心技术架构

11、 搜索引擎高并发

12、 分布式技术

13、 大数据技术

14、 搜索引擎核心技术实现原理

15、 移动搜索引擎

 

第3个主题:   PageRank算法(介绍PageRank算法)(60分钟)

1、 PageRank算法简介

2、 PageRank算法原理与实现

3、 PageRank算法

4、 PageRank算法实现

5、 案例:PageRank算法应用案例

 

第4个主题:   搜索推荐与实现(深度剖析搜索推荐技术,深入挖掘客户需求)(120分钟)

1、 业务理解、算法应用、场景分析

2、 个性化推荐的理论依据

3、 个性化推荐的价值

4、 个性化推荐能达到的目的

5、 个性化推荐的原则

6、 个性化推荐技术发展史

7、 个性化推荐的相关技术

8、 基于用户的常用推荐算法

9、 基于用户的协同过滤推荐

10、 课后练习题:实现个性化搜索精准推荐案例实战 

时间

内容

第2天

 第5个主题: 特征工程(特征工程以及特征工程对人工智能的重要性)(30分钟)

1、 什么是特征工程(Feature Engineering)?

2、 为什么特征工程如此重要?

3、 如何理解特征工程?

4、 如何进行特征工程?

5、 特征工程基本流程

6、 机器学习之特征工程

7、 七种常用的特征工程

8、 特征工程之特征选择

 

第6个主题: 特征编程方法(介绍特征编码方法)(30分钟)

1、 特征编码方法

2、 one-hot编码

3、 LabelEncoder

4、 factorize

5、 get_dummies

 

第7个主题: 特征提取(介绍特征提取方法)(30分钟)

1、 特征提取

2、 单个特征

3、 两个变量组合的特征提取

4、 多个变量的特征提取

 

第8个主题: 单个特征提取(介绍单个特征提取方法)(30分钟)

1、 单个特征

2、 归一化

3、 离散化

4、 dummy   coding

5、 缺失值处理

6、 特征变换

      a)   基础转换:x、x^2、sqrtx、logx、缩放等

      b)   长尾分布:box-cox转换

      c)    平均值

      d)    数据信息特征

                      i.    熵

                      ii.   方差

                      iii.  分享映射

                      iv.   特征对类别的关联

                       v.   互信息和最大信息系数

     e)   应用径向基函数、核函数进行平滑转换

     f)    高基数特征:数值转换

 

第9个主题: 数据治理方法论(深入剖析数据治理方法论)(60分钟)

1、 数据治理实操方法论

2、 数据治理的目标与概念

3、 数据治理的架构体系

4、 数据管理成熟度(DMM)模型

5、 数据治理是长期战略

6、 数据治理整体蓝图

7、 数据治理战略

8、 数据治理规划

9、 数据治理组织

10、 数据治理流程

11、 数据治理制度

12、 数据治理技术

13、 案例分享:深入探讨数据治理战略规划,并分享数据治理案例

  

第10个主题:   算法问题定位工具(介绍算法问题定位工具)(60分钟)

1、 算法问题定位工具

2、 算法中间结果可视化

3、 总结

4、 最佳实践案例:企业最佳实践案例剖析

 

第11个主题:   大数据调优基础知识(深入剖析大数据调优的概念为后续主题打下基础)(30分钟)

1、 什么是调优

2、 调优什么内容

3、 如何调优

4、 工作中调优过程

5、 实操演示:金融调优案例

 

第12个主题:   大数据技术核心原理(大数据思路、大数据技术核心原理、大数据技术框架剖析)(30分钟)

1、 大数据特征

2、 大数据分布式集群

3、 大数据分布式文件存储系统

4、 计算迁移

5、 数据迁移

6、 数据就近原则

7、 大数据分布式计算框架

8、 大数据集群采购规划

9、 大数据集群部署规划

10、 大数据集群网络规划

11、 案例:金融企业共享存储实施大数据案例

12、 案例:Hadoop大数据技术核心实现原理

13、 案例:Hadoop分布式与云计算整合的误区

14、 案例:Hadoop分布式存储与RAID

 

第13个主题:   Hive调优基础知识(深入剖析Hive的运行原理)(30分钟)

1、 Hive部署架构

2、 Hive作业基本运行原理

3、 MapReduce性能分析

4、 Hive作业资源占用

 

第14个主题:   Hive调优(深入剖析Hive调优的技术和方法)(30分钟)

1、 Hive调优概述

2、 Hive参数调优

3、 Hive SQL调优

4、 Hive map数据调优

5、 Hive的分区调优

6、 Hive的桶调优

7、 Hive UDF、UDAF调优

8、 其他常用调优方法

9、 数据倾斜处现方法

10、 实操演示:Hive的分区调优案例

 

第15个主题:   Hive调优总结(总结Hive调优的流程、方法、原则)(30分钟)

1、 Hive调优通用流程和方法

2、 Hive调优原则

3、 实操演示:如何分析Hive作业日志 

时间

内容

第3天

 第16个主题:   Spark调优基础知识(Spark大数据集群介绍)(60分钟)

1、 Spark集群部署优化

2、 Spark RDD计算模型解析及优化思路

3、 Spark RDD操作剖析

4、 Spark作业基本运行原理

5、 Spark作业资源占用

6、 Spark资源框架YARN、Mesos

7、 实操演示:Spark RDD运行过程剖析案例

 

第17个主题:   基于SparkWebUI调优(基于SparkWebUI调优大数据程序)(30分钟)

1、 浏览器访问SparkWebUI

2、 Spark   WebUI查看作业运行情况

3、 分析Spark   WebUI界面参数含义

4、 通过Spark   WebUI界面参数分析作业运行性能

5、 Spark   WebUI调优

6、 案例:如何通过Spark WebUI分析作业的性能

 

第18个主题:   Spark开发调优(Spark代码开发调优剖析)(30分钟)

1、 Spark开发调优原则

2、 JVM调优

3、 Spark内存Cache调优原理

4、 Spark内存Cache调优思考方法

5、 常见Spark开发调优方法和思路

6、 Spark算法调优和思路

7、 案例:Spark算法优化案例剖析

8、 实操演示:Spark Cache运行案例剖析

 

第19个主题:   Spark资源调优(深入剖析Spark资源调优)(30分钟)

1、 Spark运行参数调优

2、 Spark配置参数调优

3、 资源优化方法,如何设罝合适的资源

4、 SparkTask数、Process数设置

5、 案例:Spark   Task调优案例

6、 实操演示:Spark Process调优案例

 

第20个主题:   Spark数据倾斜、计算倾斜调优(剖析Spark数据倾斜原因、计算倾斜原因剖析以及解决方案)(30分钟)

1、 数据倾斜现象,如何判断倾斜

2、 倾斜发生原理

3、 计算倾斜原理

4、 如何定位倾斜代码,如何查看倾斜数据

5、 数据倾斜解决方案

6、 数据重复因子优化

7、 实操演示:数据倾斜案例

 

第21个主题:   Spark shuffle调优(深入剖析典型Spark shuffle原理以及优化方法)(30分钟)

1、 shuffle简介,运行原理

2、 shuffle调优概述

3、 shuffle调优方法,相关参数

4、 实操演示:Spark shuffle优化案例

 

第22个主题:   Spark计算模型介绍与对比(Spark计算模型介绍与对比)(60分钟)

1、 Spark RDD模型

2、 Spark   DataSet模型

3、 Spark   DataFrame模型

4、 Spark   Structured Streaming模型

5、 Spark计算模型之间的对比

6、 Spark计算模型的应用场景对比

 

第23个主题:   Spark调优总结(总结Spark的调优方案与流程)(30分钟)

1、 Spark调优通用流程和方法

2、 Spark调优原则

3、 案例:如何分析Spark作业日志

 

第24个主题:   SparkSQL调优基础知识(深入剖析SparkSQL数据操作调优和实践案例)(30分钟)

1、 SparkSQL基础知识介绍

2、 SparkSQL分布式架构原理

3、 SparkSQL数据模型

4、 SparkSQL作业基本运行原理

5、 SparkSQL使用注意事项

6、 SparkSQLDDL、DML、SQL、函数

7、 SparkSQL作业资源占用

8、 实操演示:银行在线支付统计的案例

 

第25个主题:   SparkSQL调优(SparkSQL具体调优方法介绍)(30分钟)

1、 SparkSQL调优概述

2、 SparkSQL参数调优

3、 SparkSQL   SQL调优

4、 SparkSQL分区调优

5、 其他常用调优方法

6、 数据倾斜处理方法

7、 SparkSQL与Shark、Hive、Pig区别剖析

8、 实操演示:SparkSQL调优案例



返回上一级