4006-998-758
3000+课程任你选择
金融行业人工-商业智能分析
研发学院 机器学习 深度学习 数据清洗 开课时间:2021-08-05
邹伟

睿客邦创始人

中国软件行业协会专家委员

华东建筑设计研究总院研究员

山东交通学院客座教授

南昌航空大学校外硕士生导师

东北石油大学硕士生导师

天津大学创业导师

领导睿客邦与全国多所高校、国企建立了AI联合实验室,完成50多个深度学习实践项目,广泛应用于医疗、交通、农业、气象、银行、电信等多个领域,擅长利用AI技术解决工业、工程中的复杂问题。


查看老师详情
课程内容

课程大纲


第一章 机器学习与深度学习

第一节决策树和提升

熵、联合熵、条件熵、KL散度、互信息

最大似然估计与最大熵模型

ID3、C4.5、CART详解

决策树的正则化

预剪枝和后剪枝

Bagging

随机森林

不平衡数据集的处理

利用随机森林做特征选择

使用随机森林计算样本相似度

异常值检测

提升为什么有效

梯度提升决策树GBDT

XGBoost算法详解

Adaboost算法

加法模型与指数损失

XGBoost库使用学习算法的本质

Adaboost用于蘑菇数据分类

Adaboost与随机森林的比较

代码和案例实践:

决策树应用于回归

多标记的决策树回归

决策树和随机森林的特征选择与因子提取

葡萄酒数据集的决策树/随机森林分类

用户流失率分析与预估

第二节 知识图谱

知识图谱概论

知识表示与建模

知识抽取与挖掘

知识存储

知识融合

知识推理

语义搜索

知识问答

代码和案例实践:

行业知识图谱应用

知识图谱与问答系统的关系

 

第二章数据清洗和特征工程

第一节 数据清洗方式和案例分析

实际生产问题中算法和特征的关系

股票数据的特征提取和应用

一致性检验

缺失数据的处理

环境数据异常检测和分析

模糊数据查询和数据校正方法、算法、应用

鸢尾花数据与分类模型

代码和案例实践:

朴素贝叶斯用于18000+篇/Sogou新闻文本的特征提取与模型分类

scikit-learn的特征工程典型使用

scikit

损失函数的绘制

卷积与(指数)移动平均线

股票数据分析

第二节 使用机器学习手段的特征提取和模型评估

交叉验证:对回归器、分类器的性能估计

交叉验证与模型选择

超参数的调整方案

全量Grid计算

随机参数优化

性能度量方案的选择

自定义评价方案

组合模型的参数优化

模型的并行化和发展

AIC/BIC等信息论原则

模型的定量和定性评价

分类、多标签、回归、聚类模型的评价异同

模型持久化

学习曲线

 

第三章 案例分享

案例一:股价分析与预测

时间序列算法:自回归、移动平均和整合模型

股票走势可视化

突变点

股票预测模型建立

模型训练

预测与评估

涉及技术:

ARIMA、时间序列分析

一维卷积、指数平均和滑动平均、

Prophet模型

MaxPooling做光滑

模型评价指标

 

案例二:用户画像

数据预处理

对用户的搜索数据进行分词与词性过滤

特征选择

Word2vec词向量模型

建模预测

涉及技术:

隐马尔科夫模型算法梗概和应用

词向量与神经网络的应用

词性标注方法

条件随机场CRF简介

知识图谱核心技术:命名实体识别NER

知识图谱核心技术:关系抽取

 

案例三:信用卡欺诈检测

数据探索性分析

混淆矩阵

逻辑回归

模型建立

模型训练

模型预测与分析

涉及技术:

机器学习算法

Logistic回归与Softmax回归

随机森林

特征选择与重要度计算

模型融合

 

案例四:购买意向预测

数据清洗

数据探索

特征工程

XGBoost

LightGBM

catBoost

模型建立

模型训练

模型预测与分析

涉及技术:

样本重采样与模型融合

模型梯度下降

再谈特征选择与筛选

机器学习的可解释性问题

强分类器可否进行模型重合

数据挖掘模型与规则提取

返回上一级