课程大纲
第一节:用户流失率分析与决策树随机森林模型
熵、联合熵、条件熵、KL散度、互信息
最大似然估计与最大熵模型
ID3、C4.5、CART详解
决策树的正则化
预剪枝和后剪枝
Bagging
随机森林
不平衡数据集的处理
利用随机森林做特征选择
使用随机森林计算样本相似度
异常值检测
提升为什么有效
梯度提升决策树GBDT
XGBoost算法详解
Adaboost算法
加法模型与指数损失
XGBoost库使用学习算法的本质
Adaboost用于蘑菇数据分类
Adaboost与随机森林的比较
代码和案例实践:
决策树应用于回归
多标记的决策树回归
决策树和随机森林的特征选择与因子提取
葡萄酒数据集的决策树/随机森林分类
用户流失率分析与预估
第二节:人脸验证与卷积神经网络
神经网络结构,滤波器,卷积
池化,激活函数,反向传播
目标分类与识别、目标检测与追踪
AlexNet、VGGNet、GoogleLeNet
Inception-V3/V4
ResNet、DenseNet
代码和案例实践:
金融数据与卷积网络的关系与分析
时间序列分析与卷积应用
数字图片分类
以图搜图
人证合一
卷积神经网络调参经验分享
第三节:舆情监测与循环神经网络
语言模型Bi-Gram/Tri-Gram/N-Gram
分词算法的原理及类似应用
词性标注
语义关系抽取
词向量
文本分类:基于CNN和基于LSTM的方法比较
机器翻译:Seq2Seq的典型应用
Transformer、BERT等模型原理
文本摘要与信息抽取
阅读理解
问答系统
情感分析
代码和案例实践:
知识图谱:命名实体识别的实践
知识图谱:实体关系的判定与分类
HMM分词及CRF的异同
文本摘要的生成
智能对话系统和SeqSeq模型
阅读理解的实现与Attention
知识图谱与问答系统的关系
第四节:数据科学实践和案例分析
实际生产问题中算法和特征的关系
股票数据的特征提取和应用
一致性检验
缺失数据的处理
环境数据异常检测和分析
模糊数据查询和数据校正方法、算法、应用
代码和案例实践:
损失函数的绘制
卷积与(指数)移动平均线
股票数据分析
交叉验证:对回归器、分类器的性能估计
交叉验证与模型选择
超参数的调整方案
全量Grid计算
随机参数优化
性能度量方案的选择
自定义评价方案
组合模型的参数优化
模型的并行化和发展
AIC/BIC等信息论原则
模型的定量和定性评价
分类、多标签、回归、聚类模型的评价异同
模型持久化
学习曲线