4006-998-758
3000+课程任你选择
深度剖析Spark企业级大数据最佳实践
研发学院 深度剖析Spark企业级大数据最佳实践 开课时间:2021-08-03
刘刚

有着10年基于大数据平台数据建模、数据治理、数据分析和挖掘的大型数据仓库项目架构实施经验,实施过基于Hadoop平台PageRank算法的实现,在大数据架构、开发、运维和优化、数据集成、数据湖(Data Lake)、数据建模、数据挖掘/机器学习、实时推荐等方面有丰富经验,了解大数据在互联网、金融、电信方面的应用、落地和使用场景。

查看老师详情
课程内容

课程大纲


课程模块

课程内容

数据分析和挖掘基础

●   统计量

●   期望/方差/偏度/峰度

●   协方差和相关系数

●   数据特征的测度

●   集中趋势、离散程度、分不得形状

●   平均数、众数、中位数

●   方差与标准差、四分位和极差

数据探索

●   数据质量分析

     —缺失值

     —异常值

     —一致性

●   数据特征分析

     —分布分析

     —对比分析

     —统计量分析

     —周期性分析

     —贡献度分析

     —相关性分析

●   降维技术

     —主成分分析

     —因子分析

     —对应分析

常见的连续型随机变量的分布

●   正太分布

●   指数分布

●   均匀分布

●   卡方分布

●   t分布

●   F分布

 

数据预处处理

●   数据清洗

●   数据集成

●   数据变换

●   数据规约

 

 

 

 

 

Python 数据处理

●   Python 的数值类型;

●   字符串概念、语法及应用;

●   列表、元组概念、语法及应用;

●   列表推导的使用;

●   字典、集合概念、语法及应用;

●   Python循环介绍:while、if...else、for;

●   Python匿名函数lambda介绍

●   Python面向对象编程思想

●   基于python的“数据分析和挖掘基础”实现

●   基于Python的“常见的连续型随机变量的分布”实现

Python编程工具介绍

●   Jupyter工具介绍和使用

●   pycharm工具介绍

 

 

 

Python常用库基本使用

●   Numpy基本使用

●   Pandas基本使用

●   数据加载与处理

●   Pandas分组与合并

●   Pandas时间序列

●   Matplotlib基本使用

●   Scikit-Learn基本使用

 

 

Spark常用数据分析和挖掘使用

●   Spark 技术介绍

●   Spark mllib数据分析和挖掘工具介绍

●   SparkR 数据分析和挖掘技术介绍

●   Spark GraphX图处理技术介绍

 

 

 

 

 AI深度学习技术介绍

●   TensorFlow深度学习框架介绍

●   TensorFlow平台的功能和集成的常用深度学习算法介绍

●   Caffe深度学习框架介绍

●   Caffe常用深度学习算法介绍

●   Keras度学习框架介绍

●   Keras常用深度学习算法介绍

●   TensorFlow、Caffe和Keras比较

 

 

 

 

数据挖掘方法论介绍

●   数据挖掘的基本任务

●   定义挖掘目标

●   数据取样

●   数据探索

●   数据预处理

●   挖掘建模

●   模型评价

●   常见的挖掘算法

 

python数据分析和挖掘可视化和绘图

●   matplotlib 基础

●   pandas 中的绘图函数

●   实战:图形化显示地理数据

●   实战:Python 图形化工具生 态系统

 

 

 

Scikit-learn介绍

●   Scikit-learn库介绍

●   Scikit-learn安装

●   基于Scikit-learn的常用挖掘算法实战

●   基于Scikit-learn数据挖掘流程

     —数据读取

     —数据标准化

     —特征提取

     —升维和降维

 

 

回归模型算法分类和应用场景介绍

●   线性回归

●   非线性回归

●   Logistic回归

●   岭回归

●   主成分分析

 

 

常用数据挖掘使用介绍

●   常用算法的应用场景介绍

●   决策树算法介绍和实战

●   随机森林算法介绍和实战

●   神经网络算法介绍和实操

●   时间序列介绍和实操

●   贝叶斯算法介绍和实操

 

 

非监督学习算法介绍

●   降维方法

●   主成分分析(PCA)

●   聚类方法

●   层次聚类

●   K-means

 

 金融数据挖掘项目实战

●   金融数据分析及欺诈检测实操

     —数据准备

     —探索性数据分析(EDA)及可视化

     —数据处理

     —数据建模

     —模型验证和性能调优   


返回上一级