课程大纲
第一章人工智能数据分析技术基础
第一课:人工智能与数据挖掘概论
人工智能概述与发展现状
当前的机器学习、深度学习与模式识别、传统算法的区别和联系
如何看待知识图谱
推荐系统、广告点击率
强化学习和AlphaGo、AlphaZero模型
图像视频方向:目标检测/小目标检测/图像分类/情感识别/微表情识别/医学图像分析/图像语义分割/图像生成/图像检索/图像识别/目标跟踪/视频语义分割/视频语义分析
自然语言处理方向:场景主题/文本检索/文档分类/中文自动分词/词性标注/语法分析/自然语言生成/文本匹配/信息抽取/机器翻译/自动摘要/手写体和印刷体字符识别/舆情分析/问答系统/场景文字检测/语义理解
语音识别方向:语音识别/语音生成
综合与总结:语音识别项目落地少的原因分析
代码和案例实践:
传统IT产业项目案例分享:以某知名品牌的点读机产品为例
交通气象等传统行业项目案例分享:以高速公路缴费系统的痛点为例
医药健康领域项目案例分享:以染色体核型分析为例
某运营商的光猫识别项目
上市公司公告文本的并购分类为例
第二课:Python数据分析
Numpy/Scipy/Pandas/Matplotlib/Seaborn库
Numpy基础属性与数组创建
Numpy索引
Numpy数学运算与常用分布
Pandas数据处理与分析
Pandas文件读写和个性化控制
Pandas的concat与merge
Matplotlib 基本图结构介绍
基于Matplotlib绘制散点图、柱状图、等高线图、3D图等
多图合并与图片文件存取
Seaborn/PyEcharts等包的使用
scikit-learn的介绍和典型使用
逻辑回归、决策树、随机森林、SVM
XGBoost、LightGBM
多元高斯分布
典型图像处理
多种数学曲线
多项式拟合
代码和案例实践:
快速傅里叶变换FFT与信号处理
Soble/Prewitt/Laplacian算子与卷积网络
卷积与(指数)移动平均线
股票数据分析
缺失数据的处理和预测
环境数据异常检测和分析
快速傅里叶变换FFT
图像处理与奇异值分解SVD
第二章离散建模与时间序列建模
第三课:用户流失率分析与决策树随机森林模型
熵、联合熵、条件熵、KL散度、互信息
最大似然估计与最大熵模型
ID3、C4.5、CART详解
决策树的正则化
预剪枝和后剪枝
Bagging
随机森林
不平衡数据集的处理
利用随机森林做特征选择
使用随机森林计算样本相似度
异常值检测
提升为什么有效
梯度提升决策树GBDT
XGBoost算法详解
Adaboost算法
加法模型与指数损失
XGBoost库使用学习算法的本质
Adaboost用于蘑菇数据分类
Adaboost与随机森林的比较
代码和案例实践:
决策树应用于回归
多标记的决策树回归
决策树和随机森林的特征选择与因子提取
葡萄酒数据集的决策树/随机森林分类
用户流失率分析与预估
第四课:人脸验证与卷积神经网络
神经网络结构,滤波器,卷积
池化,激活函数,反向传播
目标分类与识别、目标检测与追踪
AlexNet、VGGNet、GoogleLeNet
Inception-V3/V4
ResNet、DenseNet
代码和案例实践:
金融数据与卷积网络的关系与分析
时间序列分析与卷积应用
数字图片分类
以图搜图
人证合一
卷积神经网络调参经验分享
第五课:舆情监测与循环神经网络
语言模型Bi-Gram/Tri-Gram/N-Gram
分词算法的原理及类似应用
词性标注
语义关系抽取
词向量
文本分类:基于CNN和基于LSTM的方法比较
机器翻译:Seq2Seq的典型应用
Transformer、BERT等模型原理
文本摘要与信息抽取
阅读理解
问答系统
情感分析
代码和案例实践:
知识图谱:命名实体识别的实践
知识图谱:实体关系的判定与分类
HMM分词及CRF的异同
文本摘要的生成
智能对话系统和SeqSeq模型
阅读理解的实现与Attention
知识图谱与问答系统的关系
第六课:数据科学实践和案例分析
实际生产问题中算法和特征的关系
股票数据的特征提取和应用
一致性检验
缺失数据的处理
环境数据异常检测和分析
模糊数据查询和数据校正方法、算法、应用
代码和案例实践:
损失函数的绘制
卷积与(指数)移动平均线
股票数据分析
交叉验证:对回归器、分类器的性能估计
交叉验证与模型选择
超参数的调整方案
全量Grid计算
随机参数优化
性能度量方案的选择
自定义评价方案
组合模型的参数优化
模型的并行化和发展
AIC/BIC等信息论原则
模型的定量和定性评价
分类、多标签、回归、聚类模型的评价异同
模型持久化
学习曲线
案例分享
案例一:股价分析与预测
时间序列算法:自回归、移动平均和整合模型
股票走势可视化
突变点
股票预测模型建立
模型训练
预测与评估
涉及技术:
ARIMA、时间序列分析
一维卷积、指数平均和滑动平均、
Prophet模型
MaxPooling做光滑
模型评价指标
案例二:用户画像
数据预处理
对用户的搜索数据进行分词与词性过滤
特征选择
Word2vec词向量模型
建模预测
涉及技术:
隐马尔科夫模型算法梗概和应用
词向量与神经网络的应用
词性标注方法
条件随机场CRF简介
知识图谱核心技术:命名实体识别NER
知识图谱核心技术:关系抽取
案例三:信用卡欺诈检测
数据探索性分析
混淆矩阵
逻辑回归
模型建立
模型训练
模型预测与分析
涉及技术:
机器学习算法
Logistic回归与Softmax回归
随机森林
特征选择与重要度计算
模型融合
案例四:购买意向预测
数据清洗
数据探索
特征工程
XGBoost
LightGBM
catBoost
模型建立
模型训练
模型预测与分析
涉及技术:
样本重采样与模型融合
模型梯度下降
再谈特征选择与筛选
机器学习的可解释性问题
强分类器可否进行模型重合
数据挖掘模型与规则提取