4006-998-758
3000+课程任你选择
机器学习的原理与实践
研发学院 机器学习的原理与实践 开课时间:2022-05-16
邹伟

睿客邦创始人

中国软件行业协会专家委员

华东建筑设计研究总院研究员

山东交通学院客座教授

南昌航空大学校外硕士生导师

东北石油大学硕士生导师

天津大学创业导师

领导睿客邦与全国多所高校、国企建立了AI联合实验室,完成50多个深度学习实践项目,广泛应用于医疗、交通、农业、气象、银行、电信等多个领域,擅长利用AI技术解决工业、工程中的复杂问题。


查看老师详情
课程内容

课程介绍


课程讲授人是从事深度学习项目管理的人员,带队完成了数十个AI项目,内容不仅包括深度学习、机器学习、数据挖掘等具体技术要点,也包括AI的整体发展、现状、应用、商业价值、未来方向等,涵盖内容非常丰富。


课程收益 

 

1,整体把握机器学习、深度学习、数据挖掘的发展方向

2,了解机器学习、深度学习、计算机视觉的技术框架

3,理解机器学习和深度学习的思维方式和关键技术

4,了解深度学习和机器学习在当前工业界的落地应用

5,了解AI顶会论文和最新技术热点


课程时长 


面授2天(6小时/天)

在线可压缩1天 (6小时/天)


课程大纲 


目 录


第一课:人工智能与数据挖掘概论.................................................................. 2

第二课 Python基础............................................................................................ 3

第三课:Python数据分析................................................................................. 4

第四课:机器学习核心原理和损失函数的理解:以回归分析为例............ 5

第五课:决策树和随机森林............................................................................... 5

第六课:支持向量机........................................................................................... 6

第七课:无监督学习与聚类............................................................................... 7

第八课:关联规则和挖掘算法........................................................................... 7

第九课:时间序列分析........................................................................................ 8

第十课:工程实践................................................................................................ 8

案例1:运行商中用户流失风险分析与预估.................................................... 8

案例2:客户贷款的风险分析和建模与评价.................................................... 8

案例3:股价价格因素分析与预测.................................................................... 8

案例4:信用卡欺诈检测..................................................................................... 8

案例5:购买意向预测......................................................................................... 8

案例6:新冠肺炎确诊病例预测........................................................................ 9

 

第一课:人工智能与数据挖掘概论

       人工智能概述与发展现状

       当前的机器学习、深度学习与模式识别、传统算法的区别和联系

       如何看待知识图谱

       推荐系统、广告点击率

       强化学习和AlphaGo、AlphaZero模型

       图像视频方向:目标检测/小目标检测/图像分类/情感识别/微表情识别/医学图像分析/图像语义分割/图像生成/图像检索/图像识别/目标跟踪/视频语义分割/视频语义分析

       自然语言处理方向:场景主题/文本检索/文档分类/中文自动分词/词性标注/语法分析/自然语言生成/文本匹配/信息抽取/机器翻译/自动摘要/手写体和印刷体字符识别/舆情分析/问答系统/场景文字检测/语义理解

       语音识别方向:语音识别/语音生成

       综合与总结:语音识别项目落地少的原因分析

代码和案例实践:

       传统IT产业项目案例分享:以某知名品牌的点读机产品为例

       交通气象等传统行业项目案例分享:以高速公路缴费系统的痛点为例

       医药健康领域项目案例分享:以染色体核型分析为例

       某运营商的光猫识别项目

      上市公司公告文本的并购分类为例

 

第二课 Python基础

       解释器Python2.7/3.x、IDE:Anaconda/Pycharm

       列表/元组/字典/类/文件

       Python安装与环境配置

       Python基本数据类型:list, dict, tuple, set等

       Python文件操作:txt, excel等

       Python 的标准库和第三方库

       Python高级用法:切片、迭代、map、filter、reduce

       典型图像处理

代码和案例实践:

      大素数计算与优化

      Benford定理

      公路堵车概率模型Nagel-Schreckenberg 实现

      负二项分布与比赛胜率

      本福特定律

      蝴蝶效应:Lorenz系统的三维绘制


第三课:Python数据分析

       Numpy/Scipy/Pandas/Matplotlib/Seaborn库

       Numpy基础属性与数组创建

       Numpy索引

       Numpy数学运算与常用分布

       Pandas数据处理与分析

       Pandas文件读写和个性化控制

       Pandas的concat与merge

       Matplotlib 基本图结构介绍

       基于Matplotlib绘制散点图、柱状图、等高线图、3D图等

       多图合并与图片文件存取

       Seaborn/PyEcharts等包的使用

       scikit-learn的介绍和典型使用

       逻辑回归、决策树、随机森林、SVM

       XGBoost、LightGBM

       多元高斯分布

       典型图像处理

       多种数学曲线

       多项式拟合

代码和案例实践:

       快速傅里叶变换FFT与信号处理

       Soble/Prewitt/Laplacian算子与卷积网络

       卷积与(指数)移动平均线

       股票数据分析

       缺失数据的处理和预测

       环境数据异常检测和分析

       快速傅里叶变换FFT

       图像处理与奇异值分解SVD


第四课:机器学习核心原理和损失函数的理解:以回归分析为例

       线性回归

       Logistic/Softmax回归

       广义线性回归

       L1/L2正则化

       Ridge与LASSO

       Elastic Net

       梯度下降算法:BGD与SGD

       特征选择与过拟合

       Softmax回归的概念源头

       最大熵模型

       K-L散度

代码和案例实践:

       股票数据的特征提取和应用

       泰坦尼克号乘客缺失数据处理和存活率预测

       环境检测数据异常分析和预测

       模糊数据查询和数据校正方法

       PCA与鸢尾花数据分类

        二手车数据特征选择与算法模型比较

        广告投入与销售额回归分析

        鸢尾花数据集的分类

        TensorFlow实现线性回归

        TensorFlow实现Logistic回归


第五课:决策树和随机森林

       熵、联合熵、条件熵、KL散度、互信息

       ID3、C4.5、CART详解

       决策树的正则化

       预剪枝和后剪枝

       Bagging

       随机森林

       不平衡数据集的处理

       利用随机森林做特征选择

       使用随机森林计算样本相似度

       异常值检测

代码和案例实践:

       随机森林与特征选择

       决策树应用于回归

       多标记的决策树回归

       决策树和随机森林的可视化

       葡萄酒数据集的决策树/随机森林分类

       泰坦尼克乘客存活率估计


第六课:支持向量机

       线性可分支持向量机

       软间隔

       损失函数的理解

       核函数的原理和选择

       SMO算法

       支持向量回归SVR

       多分类SVM

代码和案例实践:

       1.原始数据和特征提取

       2.调用开源库函数完成SVM

       3.葡萄酒数据分类

       4.数字图像的手写体识别

       5.MNIST手写体识别

       6.SVR用于时间序列曲线预测

       7.SVM、Logistic回归、随机森林三者的横向比较


第七课:无监督学习与聚类

       各种相似度度量及其相互关系

       Jaccard相似度和准确率、召回率

       Pearson相关系数与余弦相似度 

       PCA主成分分析

       深入理解主成分分析

       PCA的推广:kernel-PCA/ICA/BSS/NMF/SVD

       K-means与K-Medoids及变种

       层次聚类:自顶向下,自底向上

       AP算法(Sci07)/LPA算法及其应用

       密度聚类DBSCAN/DensityPeak(Sci14)

       谱聚类SC

       聚类评价和结果指标

代码和案例实践:

       1.K-Means++算法原理和实现

       2.向量量化VQ及图像近似

       3.并查集的实践应用

       4.密度聚类的异常值检测

       5.谱聚类用于图片分割


第八课:关联规则和挖掘算法

       项、事务

       支持度、置信度、lift值、Conviction

       关联规则算法详述

       频繁项集及其快速发现

       阈值选择问题

       BFS和DFS搜索策略

       计数法和交集法

       Apriori、Eclat

       FP-growth

代码和案例实践:

      1.商品和用户相关性分析与推荐

      2.用户相似性评价的不同方案与异同比较

      3.并查集的实践应用

      4.关联规则与SVD、LFM的实战区别


第九课:时间序列分析

       隐马尔科夫模型

       HMM与CRF

       ARIMA、时间序列分析

       一维卷积、指数平均和滑动平均、

       Prophet模型对时间序列分析的影像

       MaxPooling做光滑的trick

       Bi-LSTM双向循环网络

       Keras函数式API与回调函数

 代码和案例实践:

       时间序列算法:自回归、移动平均和整合模型

       股票走势可视化

       突变点分析

       股票预测模型建立

       模型训练

       预测与评估


第十课:工程实践

       案例1:运行商中用户流失风险分析与预估

       案例2:客户贷款的风险分析和建模与评价

       案例3:股价价格因素分析与预测

       案例4:信用卡欺诈检测

       案例5:购买意向预测

       案例6:新冠肺炎确诊病例预测

包括如下技术点:

       时间序列算法:自回归、移动平均和整合模型

       ARIMA、Prophet、HMM的综合应用

       股票走势可视化

       突变点

       模型评价指标

       对用户的搜索数据进行分词与词性过滤

       Word2vec词向量模型

       词向量与神经网络的应用

       词性标注方法

       条件随机场CRF简介

       数据探索性分析

       混淆矩阵

       特征选择与重要度计算

       XGBoost/LightGBM/catBoost

       样本重采样与模型融合

       特征选择与筛选

       机器学习的可解释性问题

       强分类器可否进行模型重合

       数据挖掘模型与规则提取

返回上一级