4006-998-758
3000+课程任你选择
Python数据挖掘全纲
研发学院 开课时间:2021-08-17
邹伟

睿客邦创始人

中国软件行业协会专家委员

华东建筑设计研究总院研究员

山东交通学院客座教授

南昌航空大学校外硕士生导师

东北石油大学硕士生导师

天津大学创业导师

领导睿客邦与全国多所高校、国企建立了AI联合实验室,完成50多个深度学习实践项目,广泛应用于医疗、交通、农业、气象、银行、电信等多个领域,擅长利用AI技术解决工业、工程中的复杂问题。


查看老师详情
课程内容

课程介绍
 

课程讲授人是从事数据挖掘、机器学习、深度学习项目管理的人员,带队完成了数十个AI项目,内容不仅包括深度学习、机器学习、数据挖掘等具体技术要点,也包括AI的整体发展、现状、应用、商业价值、未来方向等,涵盖内容非常丰富。

邹伟,睿客邦创始人、国内资深AI专家,擅长利用AI技术解决工业、工程中的复杂问题。华东建筑设计研究总院研究员、山东交通学院客座教授、南昌航空大学硕士生导师、中国软件行业协会专家委员、上海市计划生育科学研究所特聘专家、天津大学创业导师、中华中医药学会会员、中国医药教育协会老年运动与健康分会学术委员;领导睿客邦与全国二十多所高校、国企建立了AI联合实验室,完成50多个深度学习实践项目,广泛应用于医疗、交通、农业、气象、银行、电信等多个领域。


课程大纲 


第零节:人工智能技术地图总览(说明:略讲;本节重点是思考Python与数据分析之间的联系,第一天上午)

1、图像视频方向

目标检测/小目标检测/图像分类/情感识别/微表情识别/医学图像分析/图像语义分割/图像生成/图像检索/图像识别/目标跟踪/视频语义分割/视频语义分析

2、自然语言处理方向

场景主题/文本检索/文档分类/中文自动分词/词性标注/语法分析/自然语言生成/文本匹配/信息抽取/机器翻译/自动摘要/手写体和印刷体字符识别/舆情分析/问答系统/场景文字检测/语义理解

3、语音识别方向

语音识别/语音生成

4、综合与总结

数据分析如何进行

特征如何选择

第一节:Python基础(重点之一,本节实践内容最重,第一天上午)

解释器Python2.7/3.x、IDE:Anaconda/Pycharm

列表/元组/字典/类/文件

Python安装与环境配置

Python基本数据类型:list, dict, tuple, set等

Python文件操作:txt, excel等

Python 的标准库和第三方库

Python高级用法:切片、迭代、map、filter、reduce

典型图像处理

代码和案例实践:

大素数计算与优化

Benford定理

公路堵车概率模型Nagel-Schreckenberg实现

负二项分布与比赛胜率

本福特定律

蝴蝶效应:Lorenz系统的三维绘制

第二节:Python数据分析(承上启下,理解数据分析的基本过程和思路,第一天下午)

Numpy/Scipy/Pandas/Matplotlib/Seaborn库

Numpy基础属性与数组创建

Numpy索引

Numpy数学运算与常用分布

Pandas数据处理与分析

Pandas文件读写和个性化控制

Pandas的concat与merge

Matplotlib 基本图结构介绍

基于Matplotlib绘制散点图、柱状图、等高线图、3D图等

多图合并与图片文件存取

Seaborn/PyEcharts等包的使用

scikit-learn的介绍和典型使用

逻辑回归、决策树、随机森林、SVM

XGBoost、LightGBM

多元高斯分布

典型图像处理

多种数学曲线

多项式拟合

代码和案例实践:

快速傅里叶变换FFT与信号处理

Soble/Prewitt/Laplacian算子与卷积网络

卷积与(指数)移动平均线

股票数据分析

缺失数据的处理和预测

环境数据异常检测和分析

快速傅里叶变换FFT

图像处理与奇异值分解SVD

第三节:数据预处理与特征工程,第二天上午

手机银行日活跃用户量、日活率、流失率、渗透率

传统业务、自助设备等相关指标

基金、股票类指标和参数

用数据挖掘分析“技术流”是否可靠

经营流动、效益成本指标

以新冠肺炎确诊病例数据分析介绍数据预处理的重要性

数据获取

数据预处理

特征工程

判断数据对结果预测的有效性

采集和取舍问题

线上实时计算

预测用户对业务套餐的订购情况

数据获取过程中避免“幸存者偏差”的方式

常见的结构化数据类型

样本选取

数据清洗

特征工程

可视化识别脏数据

识别错误方法

数据清洗缺失值和离群值

特征工程中的特征设计与加工

特征选择和重要度判断

特征降维

特征工程的案例分析

第四节:时间序列分析(数据分析的一大类问题,实践中经常遇到,尽量有所了解,第二天上午)

ARIMA、时间序列分析

一维卷积、指数平均和滑动平均、

Prophet模型

MaxPooling做光滑

Attention

CNN+LSTM模型

Bi-LSTM双向循环网络

Keras函数式API与回调函数

代码和案例实践:

时间序列算法:自回归、移动平均和整合模型

股票走势可视化

突变点分析

股票预测模型建立

模型训练

预测与评估

第五节:数据建模与回归分析,第二天下午

线性回归

Logistic/Softmax回归

广义线性回归

L1/L2正则化

Ridge与LASSO

Elastic Net

梯度下降算法:BGD与SGD

特征选择与过拟合

Softmax回归的概念源头

最大熵模型

K-L散度

代码和案例实践:

1.股票数据的特征提取和应用

2.环境检测数据异常分析和预测

3.模糊数据查询和数据校正方法

4.PCA与鸢尾花数据分类

5.二手车数据特征选择与算法模型比较

6.广告投入与销售额回归分析

第六节:决策树和随机森林,第三天上午

熵、联合熵、条件熵、KL散度、互信息

最大似然估计与最大熵模型

ID3、C4.5、CART详解

决策树的正则化

预剪枝和后剪枝

Bagging

随机森林

不平衡数据集的处理

利用随机森林做特征选择

使用随机森林计算样本相似度

异常值检测

代码和案例实践:

随机森林与特征选择

决策树应用于回归

多标记的决策树回归

决策树和随机森林的可视化

葡萄酒数据集的决策树/随机森林分类

泰坦尼克乘客存活率估计

第七节:SVM,第三天上午

    线性可分支持向量机

    软间隔

    损失函数的理解

    核函数的原理和选择

    SMO算法

    支持向量回归SVR

    多分类SVM

代码和案例实践:

    1.原始数据和特征提取

    2.调用开源库函数完成SVM

    4.葡萄酒数据分类

    5.数字图像的手写体识别

    5.MNIST手写体识别

    6.SVR用于时间序列曲线预测

    7.SVM、Logistic回归、随机森林三者的横向比较

第八节:聚类,第三天下午

各种相似度度量及其相互关系

    Jaccard相似度和准确率、召回率

    Pearson相关系数与余弦相似度

    K-means与K-Medoids及变种

    层次聚类:自顶向下,自底向上

    AP算法(Sci07)/LPA算法及其应用

    密度聚类DBSCAN/DensityPeak(Sci14)

    谱聚类SC

    聚类评价和结果指标

代码和案例实践:

    1.K-Means++算法原理和实现

    2.向量量化VQ及图像近似

    3.并查集的实践应用

    4.密度聚类的异常值检测

    5.谱聚类用于图片分割

第九节:关联规则挖掘算法,第三天下午

项、事务

支持度、置信度、lift值、Conviction

关联规则算法详述

频繁项集及其快速发现

阈值选择问题

BFS和DFS搜索策略

计数法和交集法

Apriori、Eclat

FP-growth

代码和案例实践:

    1.商品和用户相关性分析与推荐

    2.用户相似性评价的不同方案与异同比较

    3.并查集的实践应用

    4.关联规则与SVD、LFM的实战区别

第十节:数据分析与建模详细案例分析,第四天

1、用户留存分析与预估

2、网络运维中吞吐量估计与误差分析

3、小区流量统计与分析

4、客户贷款数据的风险分析和建模与评价

5、各种机器学习模型的调参经验分享

6、模型评价及其意义

返回上一级