课程大纲
第一课:人工智能与数据挖掘概论
人工智能概述与发展现状
当前的机器学习、深度学习与模式识别、传统算法的区别和联系
如何看待知识图谱
推荐系统、广告点击率
强化学习和AlphaGo、AlphaZero模型
图像视频方向:目标检测/小目标检测/图像分类/情感识别/微表情识别/医学图像分析/图像语义分割/图像生成/图像检索/图像识别/目标跟踪/视频语义分割/视频语义分析
自然语言处理方向:场景主题/文本检索/文档分类/中文自动分词/词性标注/语法分析/自然语言生成/文本匹配/信息抽取/机器翻译/自动摘要/手写体和印刷体字符识别/舆情分析/问答系统/场景文字检测/语义理解
语音识别方向:语音识别/语音生成
综合与总结:语音识别项目落地少的原因分析
代码和案例实践:
传统IT产业项目案例分享:以某知名品牌的点读机产品为例
交通气象等传统行业项目案例分享:以高速公路缴费系统的痛点为例
医药健康领域项目案例分享:以染色体核型分析为例
某运营商的光猫识别项目
上市公司公告文本的并购分类为例
第二课 Python基础
解释器Python2.7/3.x、IDE:Anaconda/Pycharm
列表/元组/字典/类/文件
Python安装与环境配置
Python基本数据类型:list, dict, tuple, set等
Python文件操作:txt, excel等
Python 的标准库和第三方库
Python高级用法:切片、迭代、map、filter、reduce
典型图像处理
代码和案例实践:
大素数计算与优化
Benford定理
公路堵车概率模型Nagel-Schreckenberg 实现
负二项分布与比赛胜率
本福特定律
蝴蝶效应:Lorenz系统的三维绘制
第三课:Python数据分析
Numpy/Scipy/Pandas/Matplotlib/Seaborn库
Numpy基础属性与数组创建
Numpy索引
Numpy数学运算与常用分布
Pandas数据处理与分析
Pandas文件读写和个性化控制
Pandas的concat与merge
Matplotlib 基本图结构介绍
基于Matplotlib绘制散点图、柱状图、等高线图、3D图等
多图合并与图片文件存取
Seaborn/PyEcharts等包的使用
scikit-learn的介绍和典型使用
逻辑回归、决策树、随机森林、SVM
XGBoost、LightGBM
多元高斯分布
典型图像处理
多种数学曲线
多项式拟合
代码和案例实践:
快速傅里叶变换FFT与信号处理
Soble/Prewitt/Laplacian算子与卷积网络
卷积与(指数)移动平均线
股票数据分析
缺失数据的处理和预测
环境数据异常检测和分析
快速傅里叶变换FFT
图像处理与奇异值分解SVD
第四课:机器学习核心原理和损失函数的理解:以回归分析为例
线性回归
Logistic/Softmax回归
广义线性回归
L1/L2正则化
Ridge与LASSO
Elastic Net
梯度下降算法:BGD与SGD
特征选择与过拟合
Softmax回归的概念源头
最大熵模型
K-L散度
代码和案例实践:
股票数据的特征提取和应用
泰坦尼克号乘客缺失数据处理和存活率预测
环境检测数据异常分析和预测
模糊数据查询和数据校正方法
PCA与鸢尾花数据分类
二手车数据特征选择与算法模型比较
广告投入与销售额回归分析
鸢尾花数据集的分类
TensorFlow实现线性回归
TensorFlow实现Logistic回归
第五课:决策树和随机森林
熵、联合熵、条件熵、KL散度、互信息
ID3、C4.5、CART详解
决策树的正则化
预剪枝和后剪枝
Bagging
随机森林
不平衡数据集的处理
利用随机森林做特征选择
使用随机森林计算样本相似度
异常值检测
代码和案例实践:
随机森林与特征选择
决策树应用于回归
多标记的决策树回归
决策树和随机森林的可视化
葡萄酒数据集的决策树/随机森林分类
泰坦尼克乘客存活率估计
第六课:支持向量机
线性可分支持向量机
软间隔
损失函数的理解
核函数的原理和选择
SMO算法
支持向量回归SVR
多分类SVM
代码和案例实践:
1.原始数据和特征提取
2.调用开源库函数完成SVM
4.葡萄酒数据分类
5.数字图像的手写体识别
5.MNIST手写体识别
6.SVR用于时间序列曲线预测
7.SVM、Logistic回归、随机森林三者的横向比较
第七课:XGBoost模型详解
定义树的复杂度
boosting tree的提升思路
残差的选择
XGBoost损失函数的提成
Loss的精确一阶导数和二阶导数
近似加权分位法
稀疏自适应分割策略
XGBoost的过拟合与正则化目标函数
算法成功之处和存在的问题
代码和案例实践:
1.收入分类模型的提升应用
2.XGBoost库与sklearn库的使用
3.提升模型在用户感知评分预测的应用
4.XGBoost用于真实信号数据中的分类建模和调参
第八课:LightGBM原理与实践
boosting框架总览
重新认识样本的梯度
GOSS思想在LightGBM中的应用
贪心和启发式特征搜索
EFB候选特征的选择
Histogram算法与Pre-sorted算法对数据结构的影响
样本采样与权重
再谈引入稀疏数据的原因
单边采样带来的训练样本减少
代码和案例实践:
1.钻井工况数据在LightGBM中的实践
2. LightGBM与XGBoost的性能比较
3.基站小区节能预测建模
4.哪些场景不适合LightGBM
第九课:无监督学习与聚类
各种相似度度量及其相互关系
Jaccard相似度和准确率、召回率
Pearson相关系数与余弦相似度
PCA主成分分析
深入理解主成分分析
PCA的推广:kernel-PCA/ICA/BSS/NMF/SVD
K-means与K-Medoids及变种
层次聚类:自顶向下,自底向上
AP算法(Sci07)/LPA算法及其应用
密度聚类DBSCAN/DensityPeak(Sci14)
谱聚类SC
聚类评价和结果指标
代码和案例实践:
1.K-Means++算法原理和实现
2.向量量化VQ及图像近似
3.并查集的实践应用
4.密度聚类的异常值检测
5.谱聚类用于图片分割
第十课:关联规则和挖掘算法
项、事务
支持度、置信度、lift值、Conviction
关联规则算法详述
频繁项集及其快速发现
阈值选择问题
BFS和DFS搜索策略
计数法和交集法
Apriori、Eclat
FP-growth
代码和案例实践:
1.商品和用户相关性分析与推荐
2.用户相似性评价的不同方案与异同比较
3.并查集的实践应用
4.关联规则与SVD、LFM的实战区别
第十一课:时间序列分析
隐马尔科夫模型
HMM与CRF
ARIMA、时间序列分析
一维卷积、指数平均和滑动平均、
Prophet模型对时间序列分析的影像
MaxPooling做光滑的trick
Bi-LSTM双向循环网络
Keras函数式API与回调函数
代码和案例实践:
时间序列算法:自回归、移动平均和整合模型
股票走势可视化
突变点分析
股票预测模型建立
模型训练
预测与评估
第十二课:工程实践
案例1:运行商中用户流失风险分析与预估
案例2:客户贷款的风险分析和建模与评价
案例3:股价价格因素分析与预测
案例4:信用卡欺诈检测
案例5:购买意向预测
案例6:新冠肺炎确诊病例预测
包括如下技术点:
时间序列算法:自回归、移动平均和整合模型
ARIMA、Prophet、HMM的综合应用
股票走势可视化
突变点
模型评价指标
对用户的搜索数据进行分词与词性过滤
Word2vec词向量模型
词向量与神经网络的应用
词性标注方法
条件随机场CRF简介
数据探索性分析
混淆矩阵
特征选择与重要度计算
XGBoost/LightGBM/catBoost
样本重采样与模型融合
特征选择与筛选
机器学习的可解释性问题
强分类器可否进行模型重合
数据挖掘模型与规则提取