4006-998-758
3000+课程任你选择
机器学习、数据挖掘原理与实践
研发学院 机器学习 数据挖掘 开课时间:2022-05-24
邹伟

睿客邦创始人

中国软件行业协会专家委员

华东建筑设计研究总院研究员

山东交通学院客座教授

南昌航空大学校外硕士生导师

东北石油大学硕士生导师

天津大学创业导师

领导睿客邦与全国多所高校、国企建立了AI联合实验室,完成50多个深度学习实践项目,广泛应用于医疗、交通、农业、气象、银行、电信等多个领域,擅长利用AI技术解决工业、工程中的复杂问题。


查看老师详情
课程内容


课程大纲


第一课:人工智能与数据挖掘概论

人工智能概述与发展现状

当前的机器学习、深度学习与模式识别、传统算法的区别和联系

如何看待知识图谱

推荐系统、广告点击率

强化学习和AlphaGo、AlphaZero模型

图像视频方向:目标检测/小目标检测/图像分类/情感识别/微表情识别/医学图像分析/图像语义分割/图像生成/图像检索/图像识别/目标跟踪/视频语义分割/视频语义分析

自然语言处理方向:场景主题/文本检索/文档分类/中文自动分词/词性标注/语法分析/自然语言生成/文本匹配/信息抽取/机器翻译/自动摘要/手写体和印刷体字符识别/舆情分析/问答系统/场景文字检测/语义理解

语音识别方向:语音识别/语音生成

综合与总结:语音识别项目落地少的原因分析

代码和案例实践:

传统IT产业项目案例分享:以某知名品牌的点读机产品为例

交通气象等传统行业项目案例分享:以高速公路缴费系统的痛点为例

医药健康领域项目案例分享:以染色体核型分析为例

某运营商的光猫识别项目

上市公司公告文本的并购分类为例

第二课 Python基础

解释器Python2.7/3.x、IDE:Anaconda/Pycharm

列表/元组/字典/类/文件

Python安装与环境配置

Python基本数据类型:list, dict, tuple, set等

Python文件操作:txt, excel等

Python 的标准库和第三方库

Python高级用法:切片、迭代、map、filter、reduce

典型图像处理

代码和案例实践:

大素数计算与优化

Benford定理

公路堵车概率模型Nagel-Schreckenberg 实现

负二项分布与比赛胜率

本福特定律

蝴蝶效应:Lorenz系统的三维绘制

第三课:Python数据分析

Numpy/Scipy/Pandas/Matplotlib/Seaborn库

Numpy基础属性与数组创建

Numpy索引

Numpy数学运算与常用分布

Pandas数据处理与分析

Pandas文件读写和个性化控制

Pandas的concat与merge

Matplotlib 基本图结构介绍

基于Matplotlib绘制散点图、柱状图、等高线图、3D图等

多图合并与图片文件存取

Seaborn/PyEcharts等包的使用

scikit-learn的介绍和典型使用

逻辑回归、决策树、随机森林、SVM

XGBoost、LightGBM

多元高斯分布

典型图像处理

多种数学曲线

多项式拟合

代码和案例实践:

快速傅里叶变换FFT与信号处理

Soble/Prewitt/Laplacian算子与卷积网络

卷积与(指数)移动平均线

股票数据分析

缺失数据的处理和预测

环境数据异常检测和分析

快速傅里叶变换FFT

图像处理与奇异值分解SVD

第四课:机器学习核心原理和损失函数的理解:以回归分析为例

线性回归

Logistic/Softmax回归

广义线性回归

L1/L2正则化

Ridge与LASSO

Elastic Net

梯度下降算法:BGD与SGD

特征选择与过拟合

Softmax回归的概念源头

最大熵模型

K-L散度

代码和案例实践:

股票数据的特征提取和应用

泰坦尼克号乘客缺失数据处理和存活率预测

环境检测数据异常分析和预测

模糊数据查询和数据校正方法

PCA与鸢尾花数据分类

二手车数据特征选择与算法模型比较

广告投入与销售额回归分析

鸢尾花数据集的分类

TensorFlow实现线性回归

TensorFlow实现Logistic回归

第五课:决策树和随机森林

熵、联合熵、条件熵、KL散度、互信息

ID3、C4.5、CART详解

决策树的正则化

预剪枝和后剪枝

Bagging

随机森林

不平衡数据集的处理

利用随机森林做特征选择

使用随机森林计算样本相似度

异常值检测

代码和案例实践:

随机森林与特征选择

决策树应用于回归

多标记的决策树回归

决策树和随机森林的可视化

葡萄酒数据集的决策树/随机森林分类

泰坦尼克乘客存活率估计

第六课:支持向量机

线性可分支持向量机

软间隔

损失函数的理解

核函数的原理和选择

SMO算法

支持向量回归SVR

多分类SVM

代码和案例实践:

1.原始数据和特征提取

2.调用开源库函数完成SVM

4.葡萄酒数据分类

5.数字图像的手写体识别

5.MNIST手写体识别

6.SVR用于时间序列曲线预测

7.SVM、Logistic回归、随机森林三者的横向比较

第七课:XGBoost模型详解

定义树的复杂度

boosting tree的提升思路

残差的选择

XGBoost损失函数的提成

Loss的精确一阶导数和二阶导数

近似加权分位法

稀疏自适应分割策略

XGBoost的过拟合与正则化目标函数

算法成功之处和存在的问题

代码和案例实践:

1.收入分类模型的提升应用

2.XGBoost库与sklearn库的使用

3.提升模型在用户感知评分预测的应用

4.XGBoost用于真实信号数据中的分类建模和调参

第八课:LightGBM原理与实践

boosting框架总览

重新认识样本的梯度

GOSS思想在LightGBM中的应用

贪心和启发式特征搜索

EFB候选特征的选择

Histogram算法与Pre-sorted算法对数据结构的影响

样本采样与权重

再谈引入稀疏数据的原因

单边采样带来的训练样本减少

代码和案例实践:

1.钻井工况数据在LightGBM中的实践

2. LightGBM与XGBoost的性能比较

3.基站小区节能预测建模

4.哪些场景不适合LightGBM

第九课:无监督学习与聚类

各种相似度度量及其相互关系

Jaccard相似度和准确率、召回率

Pearson相关系数与余弦相似度

PCA主成分分析

深入理解主成分分析

PCA的推广:kernel-PCA/ICA/BSS/NMF/SVD

K-means与K-Medoids及变种

层次聚类:自顶向下,自底向上

AP算法(Sci07)/LPA算法及其应用

密度聚类DBSCAN/DensityPeak(Sci14)

谱聚类SC

聚类评价和结果指标

代码和案例实践:

1.K-Means++算法原理和实现

2.向量量化VQ及图像近似

3.并查集的实践应用

4.密度聚类的异常值检测

5.谱聚类用于图片分割

第十课:关联规则和挖掘算法

项、事务

支持度、置信度、lift值、Conviction

关联规则算法详述

频繁项集及其快速发现

阈值选择问题

BFS和DFS搜索策略

计数法和交集法

Apriori、Eclat

FP-growth

代码和案例实践:

1.商品和用户相关性分析与推荐

2.用户相似性评价的不同方案与异同比较

3.并查集的实践应用

4.关联规则与SVD、LFM的实战区别

第十一课:时间序列分析

隐马尔科夫模型

HMM与CRF

ARIMA、时间序列分析

一维卷积、指数平均和滑动平均、

Prophet模型对时间序列分析的影像

MaxPooling做光滑的trick

Bi-LSTM双向循环网络

Keras函数式API与回调函数

代码和案例实践:

时间序列算法:自回归、移动平均和整合模型

股票走势可视化

突变点分析

股票预测模型建立

模型训练

预测与评估

第十二课:工程实践

案例1:运行商中用户流失风险分析与预估

案例2:客户贷款的风险分析和建模与评价

案例3:股价价格因素分析与预测

案例4:信用卡欺诈检测

案例5:购买意向预测

案例6:新冠肺炎确诊病例预测

包括如下技术点:

时间序列算法:自回归、移动平均和整合模型

ARIMA、Prophet、HMM的综合应用

股票走势可视化

突变点

模型评价指标

对用户的搜索数据进行分词与词性过滤

Word2vec词向量模型

词向量与神经网络的应用

词性标注方法

条件随机场CRF简介

数据探索性分析

混淆矩阵

特征选择与重要度计算

XGBoost/LightGBM/catBoost

样本重采样与模型融合

特征选择与筛选

机器学习的可解释性问题

强分类器可否进行模型重合

数据挖掘模型与规则提取

返回上一级