4006-998-758
3000+课程任你选择
大数据分析与挖掘培训
研发学院 体系架构设计 产品经理 开课时间:2021-07-03
尹立庆

多年从事容器技术、云计算、物联网研发工作经验。北航移动云计算硕士。Cloudera大数据认证(图1),项目管理师(PMP)认证(图2),主要研究方向包括容器技术、云计算、物联网、项目管理等;曾就职于阿里等互联网企业,IBM、华为等知名大型企业,现任某大型知名互联网企业首席架构,负责容器技术、云计算、物联网、PaaS平台研发工作。

IT从业近二十年,秉承理论与实践相结合,在学习中实践,在实践中学习,积累了丰富的理论与实践经验,并且乐于将自己的经验分享。尹老师具有敏锐的目光与头脑,发现并集成整合社会资源,为企业节省资源并创造价值,达到为合作伙伴创收的目的。曾为多家国内知名企业提供培训与咨询,包含阿里集团、华为、中国移动、中国电信、中国联通、当当网、中石油、中石化、中国电网、中国银行、中国工商银行、浦发银行、阿尔卡特朗讯、中航国际等。拥有云计算、物联网、大流量、高并发、分布式的大型网站架构和设计经验。曾主导过多个云计算、物联网、私有云、公有云建设项目,早些年也主导过ERP、CMS等软件项目,积累了丰富的实践经验,这些项目中包含多个数百万、上千万的大型项目。项目经历:呼叫中心人工智能客服研发项目、贵州省政府云呼叫中心建设项目、广东发展银行电营、运维大数据分析项目、中石油工程设计西南分公司云计算项目评审委员、中石油大数据挖掘项目,电商库存预测大数据分析项目、大型ERP、电子商务、CRM、电子政务等多个项目。


查看老师详情
课程内容












课程简介



















随着大数据时代的快速到来,以及大数据在生产生活中迅速普及与应用,大数据领域如雨后春笋般的出现大量的新技术,如Hadoop、Spark等技术,其中Python语言已经成为大数据技术中最为重要的一部分,被越来越多的企业所使用。Python语言的功能涵盖了大数据领域的数据处理、统计分析、数据挖掘、机器学习、深度学习、人工智能、大数据应用开发等各种不同类型的计算操作,应用范围广泛、前景非常广阔。本课程是尹老师多年工作经验的总结和归纳,从实际业务案例为入口,使学员从理论层到实操层面系统的学习数据处理技术,使学员深入理解Python语言等数据分析工具。通过本课程的学习,学员即可以正确的分析企业的数据,为管理者、决策层提供数据支撑。

本课程重点讲解基于Python语言的机器学习算法,Python语言对机器学习算法原理及实现、Python实现可视化呈现应用案例进行剖析讲解

 

课程目标


k1、 深入剖析基于Python的机器学习算法;

2、 会使用Python来实现机器学习算法及优化算法;

3、 掌握利用Python实现可视化呈现;

4、 深入剖析机器学习算法的案例及应用;

 

课程对象


1、 对基于Python语言的机器学习算法感兴趣的人士;

2、 政府机关,金融保险、移动互联网、能源行业等大数据相关人员;

3、 高校、科研院所统计分析研究员,涉及到数据处理的人员;

 

课程形式


以课堂讲解、演示、案例分析为主,辅以互动研讨、现场答疑、学以致用。

 

课程大纲


时间

内容

备注

一天

第1个主题: 基于Python的机器学习概述(介绍基于Python机器学习基础知识60分钟)

1、 掌握机器学习的算法原理及数据推导

2、 机器学习

a) 机器学习能学习什么

b) 机器学习哪里学习

c) 机器学习的学习方法是什么

d) 机器学习的学习目标是什么

e) 机器学习的求解方法是什么

3、 机器学习基础知识

a) 参数、特征、模型

b) 样本集、训练集、验证集、测试集

c) 监督学习

d) 监督学习

e) 监督学习

f) 损失函数

g) 最小二乘法

h) 极大似然

i) 梯度下降

j) 元分类

k) 元分类

l) 激活函数

4、 数据挖掘的基本任务

5、 数据挖掘建模过程

a) 定义挖掘目标

b) 数据采样

c) 数据探索

d) 数据预处理

e) 挖掘建模

f) 模型评价

6、 常用的数据挖掘模型

a) 回归(预测)与分类

b) 决策树与随机森林

c) 支持向量机(SVM)

d) 神经网络

e) 聚类分析

f) 关联规则

7、 机器学习常用距离

8、 案例Python语言市场销售额预测案例分享

 

第2个主题: 回归分析分类分析(深入剖析数据的回归分析与分类分析60分钟

1、 回归与分类

2、 回归分析概念

3、 线性回归模型及其参数估计

4、 一元线性回归

5、 一元线性回归模型

6、 一元线性回归模型求解参数

7、 损失函数

8、 求偏导

9、 回归方程的显著性检验

10、 残差分析

11、 误差项的正态性检验

12、 残差图分析

13、 统计推断与预测

14、 回归模型的选取

15、 穷举法

16、 逐步回归法

17、 岭回归分析

18、 Python语言一元线性回归

19、 实战:使用回归进行业务指标预测模型评估

20、 多元线性回归概述

21、 多元线性回归模型

22、 金融案例:Python语言多元线性回归实现

23、 非线性回归

a) 双曲线函数

b) 幂函数

c) 指数函数

d) 对数函数

e) S型曲线

24、 案例Python语言非线性回归实现

25、 课堂实操:Python语言非线性回归实现

 

第3个主题: Python语言数据可视化工具Matplotlib(介绍Python语言的数据可视化工具Matplotlib)120分钟

1、 数据可视化工具Matplotlib

2、 Matplotlib介绍

3、 pylab介绍

4、 初级绘图

5、 使用默认配置

6、 默认配置的具体内容

7、 改变线条的颜色和粗细

8、 设置图片边界

9、 设置记号

10、 设置记号的标签

11、 移动数据区域范围

12、 添加图例

13、 给一些特殊点做注释

14、 图像

15、 子图

16、 坐标轴和记号

17、 普通图

18、 散点图

19、 条形图

20、 等高线图

21、 灰度图

22、 饼状图

23、 量场图(Quiver Plots)

24、 网格

25、 多重网格

26、 极轴图

27、 3D图

28、 手稿图

 

第4个主题: 机器学习之无监督的算法(介绍机器学习之无监督的算法)10分钟)

1、 主成分分析PCA

2、 聚类

3、 实战:使用K_means算法进行客户细分

4、 特征选择与降维技术

 

第5个主题: 主成分分析PCA(深入剖析主成分分析PCA及Python语言实现30分钟

1、 PCA原理

2、 最大方差理论

3、 数据降维

4、 协方差和散度矩阵

5、 特征值分解矩阵原理

6、 SVD分解矩阵原理

7、 基于特征值分解协方差矩阵实现PCA算法

8、 基于SVD分解协方差矩阵实现PCA算法

9、 PCA理论推导

10、 选择降维后的维度K(主成分的个数)

11、 PCA算法流程

12、 PCA算法优缺点

13、 主成分分析

14、 总体主成分

15、 样本主成分

16、 成分分析模型

17、 案例Python语言主成分分析模型实现

18、 课堂实操:Python语言主成分分析模型实现

 

第6个主题: 数据建模常用距离(深入剖析数据建模过程中常用的距离模型)30分钟

1、 数据挖掘常用距离

2、 欧氏距离

3、 曼哈顿距离

4、 切比雪夫距离

5、 闵可夫斯基距离

6、 标准化欧氏距离

7、 马氏距离

8、 夹角余弦

9、 汉明距离

10、 杰卡德距离 & 杰卡德相似系数

11、 相关系数 & 相关距离

12、 信息熵

 

第7个主题: 聚类模型原理实现(深入剖析聚类原理以及通过Python语言实现聚类算法模型)60分钟

1、 聚类介绍

2、 聚类算法应用场景

3、 聚类算法应用案例

4、 样品间相近性的度量

5、 快速聚类法

6、 快速聚类法的步骤

7、 用Lm距离进行快速聚类

8、 谱系聚类法

9、 类间距离及其递推公式

10、 谱系聚类法的步骤

11、 变量聚类

12、 K-Means(K均值)聚类

13、 均值漂移聚类

14、 基于密度的聚类方法(DBSCAN)

15、 用高斯混合模型(GMM)的最大期望(EM)聚类

16、 凝聚层次聚类

17、 图团体检测(Graph Community Detection)

18、 案例Python语言聚类实现及绘图

19、 实战Python语言实现K_means算法进行客户细分


时间

内容

备注

第二

第8个主题: 机器学习之有监督的算法(介绍机器学习之有监督的算法)10分钟)

1、 决策树及随机森林

2、 实战:使用决策树预测客户流失

3、 支持向量机svm

4、 贝叶斯网络

5、 线性回归

6、 逻辑回归

7、 最近邻法KNN

8、 实战:Python语言实现回归进行业务指标预测模型评估

 

第9个主题: Logistic回归分析剖析Logistic回归其它回归分析方法30分钟

1、 Logistic回归介绍

2、 Logistic函数

3、 Logistic回归模型

4、 案例Python语言Logistic回归实现

5、 课堂实操:Python语言Logistic回归实现

 

第10个主题: 最近邻法KNN(深入剖析最近邻法KNN模型)30分钟

1、 K近邻法(KNN)原理

2、 k最近邻算法(kNN)

3、 kNN模型的三要素

4、 距离度量

5、 蛮力实现(brute-force)

6、 KD树实现(KDTree)

7、 球树(BallTree)实现

8、 搜索k近邻

9、 课堂实操:Python语言k最近邻算法(kNN)

 

第11个主题: 决策树模型原理与实现(深入剖析决策原理以及通过Python语言实现决策模型)60分钟

1、 决策树介绍

2、 决策树应用场景

3、 决策树应用案例

4、 信息熵

5、 ID3算法

6、 C4.5算法

7、 CART算法

8、 决策树算法

9、 

10、 合与

11、 决策树算法原理

12、 决策树法的决策过程

13、 案例Python语言实现决策树模型

14、 课堂实操:Python语言实现决策树模型

15、 随机森林

 

第12个主题: 随机森林模型原理与实现(深入剖析随机森林原理以及通过Python语言实现随机森林模型)60分钟

1、 随机森林介绍

2、 随机森林的特点

3、 随机森林的相关基础知识

4、 信息、熵以及信息增益的概念

5、 随机森林的生成

6、 随机森林算法

7、 随机森林算法原理

8、 袋外错误率(oob error)

9、 随机森林应用场景

10、 随机森林应用案例

11、 案例Python语言实现随机森林模型

12、 课堂实操:Python语言实现随机森林模型

13、 xgboost

 

第13个主题: 支持向量机模型原理与实现(深入剖析支持向量机算法原理以及通过Python语言实现支持向量机模型)60分钟

1、 支持向量机介绍

2、 支持向量机应用场景

3、 支持向量机应用案例

4、 支持向量机算法

5、 支持向量机算法原理

6、 线性可分支持向量机

7、 间隔最大化和支持向量

8、 对偶问题求解

9、 柆格朗日函数

10、 非线性支持向量机和核函数

a) 平面

b) 线性核

c) 多项式核

d) 高斯核

e) 拉普拉斯核

f) sigmiod核

11、 线性支持向量机(软间隔支持向量机)与松弛变量

12、 松驰因子

13、 案例Python语言实现支持向量机模型

14、 课堂实操:Python语言实现基于SVM的字符识别方法

 

第14个主题: 贝叶斯网络(深入剖析贝叶斯网络模型)60分钟

1、 贝叶斯网络介绍

2、 贝叶斯网络发展历史

3、 贝叶斯公式

4、 贝叶斯推断

5、 模型比较与奥卡姆剃刀

6、 贝叶斯网络(Bayesian Networks)

7、 信念网络(Belif Networks)

8、 因果网络(Causal Networks)

9、 条件概率

10、 先验概率

11、 联合概率分布

12、 条件概率表

13、 贝叶斯网络结构

14、 贝叶斯网模型

15、 贝叶斯网络分类

16、 静态贝叶斯网络

17、 动态贝叶斯网络

18、 贝叶斯网络的求解

19、 贝叶斯网络的应用

20、 中文分词

21、 统计机器翻译

22、 贝叶斯图像识别,Analysis by Synthesis

23、 EM算法与基于模型的聚类

24、 最大似然与最小二乘

25、 课堂实操:Python语言实现贝叶斯网络

 

第15个主题: 机器学习的过拟合与正则化技术(深入剖析机器学习的过拟合与正则化技术)60分钟

1、 机器学习过拟合介绍

2、 机器学习过拟合判断方法

3、 拟合产生的原因剖析

4、 拟合的解决方法

5、 机器学习欠拟合介绍

6、 机器学习欠拟合判断方法

7、 欠拟合产生的原因剖析

8、 欠拟合的解决方法

9、 机器学习的正则化介绍

10、 什么使用正则化

11、 什么是正则方法

12、 机器学习的正则化方法

13、 矩阵范数

14、 L_0范数

15、 L_1范数

16、 L_2范数

17、 向量范数

18、 F范数

19、 范数



返回上一级