课程介绍
课程讲授人是从事数据挖掘、机器学习、深度学习项目管理的人员,带队完成了数十个AI项目,内容不仅包括深度学习、机器学习、数据挖掘等具体技术要点,也包括AI的整体发展、现状、应用、商业价值、未来方向等,涵盖内容非常丰富。
邹伟,睿客邦创始人、国内资深AI专家,擅长利用AI技术解决工业、工程中的复杂问题。华东建筑设计研究总院研究员、山东交通学院客座教授、南昌航空大学硕士生导师、中国软件行业协会专家委员、上海市计划生育科学研究所特聘专家、天津大学创业导师、中华中医药学会会员、中国医药教育协会老年运动与健康分会学术委员;领导睿客邦与全国二十多所高校、国企建立了AI联合实验室,完成50多个深度学习实践项目,广泛应用于医疗、交通、农业、气象、银行、电信等多个领域。
课程大纲
第零节:人工智能技术地图总览(说明:略讲;本节重点是思考Python与数据分析之间的联系,第一天上午)
1、图像视频方向
目标检测/小目标检测/图像分类/情感识别/微表情识别/医学图像分析/图像语义分割/图像生成/图像检索/图像识别/目标跟踪/视频语义分割/视频语义分析
2、自然语言处理方向
场景主题/文本检索/文档分类/中文自动分词/词性标注/语法分析/自然语言生成/文本匹配/信息抽取/机器翻译/自动摘要/手写体和印刷体字符识别/舆情分析/问答系统/场景文字检测/语义理解
3、语音识别方向
语音识别/语音生成
4、综合与总结
数据分析如何进行
特征如何选择
第一节:Python基础(重点之一,本节实践内容最重,第一天上午)
解释器Python2.7/3.x、IDE:Anaconda/Pycharm
列表/元组/字典/类/文件
Python安装与环境配置
Python基本数据类型:list, dict, tuple, set等
Python文件操作:txt, excel等
Python 的标准库和第三方库
Python高级用法:切片、迭代、map、filter、reduce
典型图像处理
代码和案例实践:
大素数计算与优化
Benford定理
公路堵车概率模型Nagel-Schreckenberg实现
负二项分布与比赛胜率
本福特定律
蝴蝶效应:Lorenz系统的三维绘制
第二节:Python数据分析(承上启下,理解数据分析的基本过程和思路,第一天下午)
Numpy/Scipy/Pandas/Matplotlib/Seaborn库
Numpy基础属性与数组创建
Numpy索引
Numpy数学运算与常用分布
Pandas数据处理与分析
Pandas文件读写和个性化控制
Pandas的concat与merge
Matplotlib 基本图结构介绍
基于Matplotlib绘制散点图、柱状图、等高线图、3D图等
多图合并与图片文件存取
Seaborn/PyEcharts等包的使用
scikit-learn的介绍和典型使用
逻辑回归、决策树、随机森林、SVM
XGBoost、LightGBM
多元高斯分布
典型图像处理
多种数学曲线
多项式拟合
代码和案例实践:
快速傅里叶变换FFT与信号处理
Soble/Prewitt/Laplacian算子与卷积网络
卷积与(指数)移动平均线
股票数据分析
缺失数据的处理和预测
环境数据异常检测和分析
快速傅里叶变换FFT
图像处理与奇异值分解SVD
第三节:数据预处理与特征工程,第二天上午
手机银行日活跃用户量、日活率、流失率、渗透率
传统业务、自助设备等相关指标
基金、股票类指标和参数
用数据挖掘分析“技术流”是否可靠
经营流动、效益成本指标
以新冠肺炎确诊病例数据分析介绍数据预处理的重要性
数据获取
数据预处理
特征工程
判断数据对结果预测的有效性
采集和取舍问题
线上实时计算
预测用户对业务套餐的订购情况
数据获取过程中避免“幸存者偏差”的方式
常见的结构化数据类型
样本选取
数据清洗
特征工程
可视化识别脏数据
识别错误方法
数据清洗缺失值和离群值
特征工程中的特征设计与加工
特征选择和重要度判断
特征降维
特征工程的案例分析
第四节:时间序列分析(数据分析的一大类问题,实践中经常遇到,尽量有所了解,第二天上午)
ARIMA、时间序列分析
一维卷积、指数平均和滑动平均、
Prophet模型
MaxPooling做光滑
Attention
CNN+LSTM模型
Bi-LSTM双向循环网络
Keras函数式API与回调函数
代码和案例实践:
时间序列算法:自回归、移动平均和整合模型
股票走势可视化
突变点分析
股票预测模型建立
模型训练
预测与评估
第五节:数据建模与回归分析,第二天下午
线性回归
Logistic/Softmax回归
广义线性回归
L1/L2正则化
Ridge与LASSO
Elastic Net
梯度下降算法:BGD与SGD
特征选择与过拟合
Softmax回归的概念源头
最大熵模型
K-L散度
代码和案例实践:
1.股票数据的特征提取和应用
2.环境检测数据异常分析和预测
3.模糊数据查询和数据校正方法
4.PCA与鸢尾花数据分类
5.二手车数据特征选择与算法模型比较
6.广告投入与销售额回归分析
第六节:决策树和随机森林,第三天上午
熵、联合熵、条件熵、KL散度、互信息
最大似然估计与最大熵模型
ID3、C4.5、CART详解
决策树的正则化
预剪枝和后剪枝
Bagging
随机森林
不平衡数据集的处理
利用随机森林做特征选择
使用随机森林计算样本相似度
异常值检测
代码和案例实践:
随机森林与特征选择
决策树应用于回归
多标记的决策树回归
决策树和随机森林的可视化
葡萄酒数据集的决策树/随机森林分类
泰坦尼克乘客存活率估计
第七节:SVM,第三天上午
线性可分支持向量机
软间隔
损失函数的理解
核函数的原理和选择
SMO算法
支持向量回归SVR
多分类SVM
代码和案例实践:
1.原始数据和特征提取
2.调用开源库函数完成SVM
4.葡萄酒数据分类
5.数字图像的手写体识别
5.MNIST手写体识别
6.SVR用于时间序列曲线预测
7.SVM、Logistic回归、随机森林三者的横向比较
第八节:聚类,第三天下午
各种相似度度量及其相互关系
Jaccard相似度和准确率、召回率
Pearson相关系数与余弦相似度
K-means与K-Medoids及变种
层次聚类:自顶向下,自底向上
AP算法(Sci07)/LPA算法及其应用
密度聚类DBSCAN/DensityPeak(Sci14)
谱聚类SC
聚类评价和结果指标
代码和案例实践:
1.K-Means++算法原理和实现
2.向量量化VQ及图像近似
3.并查集的实践应用
4.密度聚类的异常值检测
5.谱聚类用于图片分割
第九节:关联规则挖掘算法,第三天下午
项、事务
支持度、置信度、lift值、Conviction
关联规则算法详述
频繁项集及其快速发现
阈值选择问题
BFS和DFS搜索策略
计数法和交集法
Apriori、Eclat
FP-growth
代码和案例实践:
1.商品和用户相关性分析与推荐
2.用户相似性评价的不同方案与异同比较
3.并查集的实践应用
4.关联规则与SVD、LFM的实战区别
第十节:数据分析与建模详细案例分析,第四天
1、用户留存分析与预估
2、网络运维中吞吐量估计与误差分析
3、小区流量统计与分析
4、客户贷款数据的风险分析和建模与评价
5、各种机器学习模型的调参经验分享
6、模型评价及其意义