课程大纲
第一章 机器学习与深度学习
第一节决策树和提升
熵、联合熵、条件熵、KL散度、互信息
最大似然估计与最大熵模型
ID3、C4.5、CART详解
决策树的正则化
预剪枝和后剪枝
Bagging
随机森林
不平衡数据集的处理
利用随机森林做特征选择
使用随机森林计算样本相似度
异常值检测
提升为什么有效
梯度提升决策树GBDT
XGBoost算法详解
Adaboost算法
加法模型与指数损失
XGBoost库使用学习算法的本质
Adaboost用于蘑菇数据分类
Adaboost与随机森林的比较
代码和案例实践:
决策树应用于回归
多标记的决策树回归
决策树和随机森林的特征选择与因子提取
葡萄酒数据集的决策树/随机森林分类
用户流失率分析与预估
第二节 知识图谱
知识图谱概论
知识表示与建模
知识抽取与挖掘
知识存储
知识融合
知识推理
语义搜索
知识问答
代码和案例实践:
行业知识图谱应用
知识图谱与问答系统的关系
第二章数据清洗和特征工程
第一节 数据清洗方式和案例分析
实际生产问题中算法和特征的关系
股票数据的特征提取和应用
一致性检验
缺失数据的处理
环境数据异常检测和分析
模糊数据查询和数据校正方法、算法、应用
鸢尾花数据与分类模型
代码和案例实践:
朴素贝叶斯用于18000+篇/Sogou新闻文本的特征提取与模型分类
scikit-learn的特征工程典型使用
scikit
损失函数的绘制
卷积与(指数)移动平均线
股票数据分析
第二节 使用机器学习手段的特征提取和模型评估
交叉验证:对回归器、分类器的性能估计
交叉验证与模型选择
超参数的调整方案
全量Grid计算
随机参数优化
性能度量方案的选择
自定义评价方案
组合模型的参数优化
模型的并行化和发展
AIC/BIC等信息论原则
模型的定量和定性评价
分类、多标签、回归、聚类模型的评价异同
模型持久化
学习曲线
第三章 案例分享
案例一:股价分析与预测
时间序列算法:自回归、移动平均和整合模型
股票走势可视化
突变点
股票预测模型建立
模型训练
预测与评估
涉及技术:
ARIMA、时间序列分析
一维卷积、指数平均和滑动平均、
Prophet模型
MaxPooling做光滑
模型评价指标
案例二:用户画像
数据预处理
对用户的搜索数据进行分词与词性过滤
特征选择
Word2vec词向量模型
建模预测
涉及技术:
隐马尔科夫模型算法梗概和应用
词向量与神经网络的应用
词性标注方法
条件随机场CRF简介
知识图谱核心技术:命名实体识别NER
知识图谱核心技术:关系抽取
案例三:信用卡欺诈检测
数据探索性分析
混淆矩阵
逻辑回归
模型建立
模型训练
模型预测与分析
涉及技术:
机器学习算法
Logistic回归与Softmax回归
随机森林
特征选择与重要度计算
模型融合
案例四:购买意向预测
数据清洗
数据探索
特征工程
XGBoost
LightGBM
catBoost
模型建立
模型训练
模型预测与分析
涉及技术:
样本重采样与模型融合
模型梯度下降
再谈特征选择与筛选
机器学习的可解释性问题
强分类器可否进行模型重合
数据挖掘模型与规则提取