课程简介
随着大数据时代的快速到来,以及大数据在生产生活中迅速普及与应用,大数据领域如雨后春笋般的出现大量的新技术,如Hadoop、Spark等技术,其中Python语言已经成为大数据技术中最为重要的一部分,被越来越多的企业所使用。Python语言的功能涵盖了大数据领域的数据处理、统计分析、数据挖掘、机器学习、深度学习、人工智能、大数据应用开发等各种不同类型的计算操作,应用范围广泛、前景非常广阔。本课程是尹老师多年工作经验的总结和归纳,从实际业务案例为入口,使学员从理论层到实操层面系统的学习数据处理技术,使学员深入理解Python语言等数据分析工具。通过本课程的学习,学员即可以正确的分析企业的数据,为管理者、决策层提供数据支撑。
本课程重点讲解基于Python语言的机器学习算法,Python语言对机器学习算法原理及实现、Python实现可视化呈现应用案例进行剖析讲解
课程目标
k1、 深入剖析基于Python的机器学习算法;
2、 会使用Python来实现机器学习算法及优化算法;
3、 掌握利用Python实现可视化呈现;
4、 深入剖析机器学习算法的案例及应用;
课程对象
1、 对基于Python语言的机器学习算法感兴趣的人士;
2、 政府机关,金融保险、移动互联网、能源行业等大数据相关人员;
3、 高校、科研院所统计分析研究员,涉及到数据处理的人员;
课程形式
以课堂讲解、演示、案例分析为主,辅以互动研讨、现场答疑、学以致用。
课程大纲
时间 | 内容 | 备注 |
第一天 | 第1个主题: 基于Python的机器学习概述(介绍基于Python的机器学习基础知识)(60分钟) 1、 掌握机器学习的算法原理及数据推导 2、 机器学习 a) 机器学习能学习什么 b) 机器学习从哪里学习 c) 机器学习的学习方法是什么 d) 机器学习的学习目标是什么 e) 机器学习的求解方法是什么 3、 机器学习基础知识 a) 参数、特征、模型 b) 样本集、训练集、验证集、测试集 c) 监督学习 d) 非监督学习 e) 半监督学习 f) 损失函数 g) 最小二乘法 h) 极大似然 i) 梯度下降 j) 二元分类 k) 多元分类 l) 激活函数 4、 数据挖掘的基本任务 5、 数据挖掘建模过程 a) 定义挖掘目标 b) 数据采样 c) 数据探索 d) 数据预处理 e) 挖掘建模 f) 模型评价 6、 常用的数据挖掘模型 a) 回归(预测)与分类 b) 决策树与随机森林 c) 支持向量机(SVM) d) 神经网络 e) 聚类分析 f) 关联规则 7、 机器学习常用距离 8、 案例:Python语言市场销售额预测案例分享
第2个主题: 回归分析与分类分析(深入剖析数据的回归分析与分类分析)(60分钟) 1、 回归与分类 2、 回归分析概念 3、 线性回归模型及其参数估计 4、 一元线性回归 5、 一元线性回归模型 6、 一元线性回归模型求解参数 7、 损失函数 8、 求偏导 9、 回归方程的显著性检验 10、 残差分析 11、 误差项的正态性检验 12、 残差图分析 13、 统计推断与预测 14、 回归模型的选取 15、 穷举法 16、 逐步回归法 17、 岭回归分析 18、 Python语言一元线性回归 19、 实战:使用回归进行业务指标预测模型评估 20、 多元线性回归概述 21、 多元线性回归模型 22、 金融案例:Python语言多元线性回归实现 23、 非线性回归 a) 双曲线函数 b) 幂函数 c) 指数函数 d) 对数函数 e) S型曲线 24、 案例:Python语言非线性回归实现 25、 课堂实操:Python语言非线性回归实现
第3个主题: Python语言数据可视化工具Matplotlib(介绍Python语言的数据可视化工具Matplotlib)(120分钟) 1、 数据可视化工具Matplotlib 2、 Matplotlib介绍 3、 pylab介绍 4、 初级绘图 5、 使用默认配置 6、 默认配置的具体内容 7、 改变线条的颜色和粗细 8、 设置图片边界 9、 设置记号 10、 设置记号的标签 11、 移动数据区域范围 12、 添加图例 13、 给一些特殊点做注释 14、 图像 15、 子图 16、 坐标轴和记号 17、 普通图 18、 散点图 19、 条形图 20、 等高线图 21、 灰度图 22、 饼状图 23、 量场图(Quiver Plots) 24、 网格 25、 多重网格 26、 极轴图 27、 3D图 28、 手稿图
第4个主题: 机器学习之无监督的算法(介绍机器学习之无监督的算法)(10分钟) 1、 主成分分析PCA 2、 聚类 3、 实战:使用K_means算法进行客户细分 4、 特征选择与降维技术
第5个主题: 主成分分析PCA(深入剖析主成分分析PCA及Python语言实现)(30分钟) 1、 PCA原理 2、 最大方差理论 3、 数据降维 4、 协方差和散度矩阵 5、 特征值分解矩阵原理 6、 SVD分解矩阵原理 7、 基于特征值分解协方差矩阵实现PCA算法 8、 基于SVD分解协方差矩阵实现PCA算法 9、 PCA理论推导 10、 选择降维后的维度K(主成分的个数) 11、 PCA算法流程 12、 PCA算法优缺点 13、 主成分分析 14、 总体主成分 15、 样本主成分 16、 主成分分析模型 17、 案例:Python语言主成分分析模型实现 18、 课堂实操:Python语言主成分分析模型实现
第6个主题: 数据建模常用距离(深入剖析数据建模过程中常用的距离模型)(30分钟) 1、 数据挖掘常用距离 2、 欧氏距离 3、 曼哈顿距离 4、 切比雪夫距离 5、 闵可夫斯基距离 6、 标准化欧氏距离 7、 马氏距离 8、 夹角余弦 9、 汉明距离 10、 杰卡德距离 & 杰卡德相似系数 11、 相关系数 & 相关距离 12、 信息熵
第7个主题: 聚类模型原理与实现(深入剖析聚类原理以及通过Python语言实现聚类算法模型)(60分钟) 1、 聚类介绍 2、 聚类算法应用场景 3、 聚类算法应用案例 4、 样品间相近性的度量 5、 快速聚类法 6、 快速聚类法的步骤 7、 用Lm距离进行快速聚类 8、 谱系聚类法 9、 类间距离及其递推公式 10、 谱系聚类法的步骤 11、 变量聚类 12、 K-Means(K均值)聚类 13、 均值漂移聚类 14、 基于密度的聚类方法(DBSCAN) 15、 用高斯混合模型(GMM)的最大期望(EM)聚类 16、 凝聚层次聚类 17、 图团体检测(Graph Community Detection) 18、 案例:Python语言聚类实现及绘图 19、 实战:Python语言实现K_means算法进行客户细分 | |
时间 | 内容 | 备注 |
第二天 | 第8个主题: 机器学习之有监督的算法(介绍机器学习之有监督的算法)(10分钟) 1、 决策树及随机森林 2、 实战:使用决策树预测客户流失 3、 支持向量机svm 4、 贝叶斯网络 5、 线性回归 6、 逻辑回归 7、 最近邻法KNN 8、 实战:Python语言实现回归进行业务指标预测模型评估
第9个主题: Logistic回归分析(剖析Logistic回归与其它回归分析方法)(30分钟) 1、 Logistic回归介绍 2、 Logistic函数 3、 Logistic回归模型 4、 案例:Python语言Logistic回归实现 5、 课堂实操:Python语言Logistic回归实现
第10个主题: 最近邻法KNN(深入剖析最近邻法KNN模型)(30分钟) 1、 K近邻法(KNN)原理 2、 k最近邻算法(kNN) 3、 kNN模型的三要素 4、 距离度量 5、 蛮力实现(brute-force) 6、 KD树实现(KDTree) 7、 球树(BallTree)实现 8、 搜索k近邻 9、 课堂实操:Python语言k最近邻算法(kNN)
第11个主题: 决策树模型原理与实现(深入剖析决策树原理以及通过Python语言实现决策树模型)(60分钟) 1、 决策树介绍 2、 决策树应用场景 3、 决策树应用案例 4、 信息熵 5、 ID3算法 6、 C4.5算法 7、 CART算法 8、 决策树算法 9、 剪枝 10、 过拟合与调参 11、 决策树算法原理 12、 决策树法的决策过程 13、 案例:Python语言实现决策树模型 14、 课堂实操:Python语言实现决策树模型 15、 随机森林
第12个主题: 随机森林模型原理与实现(深入剖析随机森林原理以及通过Python语言实现随机森林模型)(60分钟) 1、 随机森林介绍 2、 随机森林的特点 3、 随机森林的相关基础知识 4、 信息、熵以及信息增益的概念 5、 随机森林的生成 6、 随机森林算法 7、 随机森林算法原理 8、 袋外错误率(oob error) 9、 随机森林应用场景 10、 随机森林应用案例 11、 案例:Python语言实现随机森林模型 12、 课堂实操:Python语言实现随机森林模型 13、 xgboost
第13个主题: 支持向量机模型原理与实现(深入剖析支持向量机算法原理以及通过Python语言实现支持向量机模型)(60分钟) 1、 支持向量机介绍 2、 支持向量机应用场景 3、 支持向量机应用案例 4、 支持向量机算法 5、 支持向量机算法原理 6、 线性可分支持向量机 7、 间隔最大化和支持向量 8、 对偶问题求解 9、 柆格朗日函数 10、 非线性支持向量机和核函数 a) 超平面 b) 线性核 c) 多项式核 d) 高斯核 e) 拉普拉斯核 f) sigmiod核 11、 线性支持向量机(软间隔支持向量机)与松弛变量 12、 松驰因子 13、 案例:Python语言实现支持向量机模型 14、 课堂实操:Python语言实现基于SVM的字符识别方法
第14个主题: 贝叶斯网络(深入剖析贝叶斯网络模型)(60分钟) 1、 贝叶斯网络介绍 2、 贝叶斯网络发展历史 3、 贝叶斯公式 4、 贝叶斯推断 5、 模型比较与奥卡姆剃刀 6、 贝叶斯网络(Bayesian Networks) 7、 信念网络(Belif Networks) 8、 因果网络(Causal Networks) 9、 条件概率 10、 先验概率 11、 联合概率分布 12、 条件概率表 13、 贝叶斯网络结构 14、 贝叶斯网模型 15、 贝叶斯网络分类 17、 动态贝叶斯网络 18、 贝叶斯网络的求解 19、 贝叶斯网络的应用 20、 中文分词 21、 统计机器翻译 22、 贝叶斯图像识别,Analysis by Synthesis 23、 EM算法与基于模型的聚类 24、 最大似然与最小二乘 25、 课堂实操:Python语言实现贝叶斯网络
第15个主题: 机器学习的过拟合与正则化技术(深入剖析机器学习的过拟合与正则化技术)(60分钟) 1、 机器学习过拟合介绍 2、 机器学习过拟合判断方法 3、 过拟合产生的原因剖析 4、 过拟合的解决方法 5、 机器学习欠拟合介绍 6、 机器学习欠拟合判断方法 7、 欠拟合产生的原因剖析 8、 欠拟合的解决方法 9、 机器学习的正则化介绍 10、 为什么使用正则化 11、 什么是正则化方法 12、 机器学习的正则化方法 13、 矩阵范数 14、 L_0范数 15、 L_1范数 16、 L_2范数 17、 向量范数 18、 F范数 19、 核范数 |