课程大纲
课程模块 | 课程内容 |
数据分析和挖掘基础 | ● 统计量 ● 期望/方差/偏度/峰度 ● 协方差和相关系数 ● 数据特征的测度 ● 集中趋势、离散程度、分不得形状 ● 平均数、众数、中位数 ● 方差与标准差、四分位和极差 |
数据探索 | ● 数据质量分析 —缺失值 —异常值 —一致性 ● 数据特征分析 —分布分析 —对比分析 —统计量分析 —周期性分析 —贡献度分析 —相关性分析 ● 降维技术 —主成分分析 —因子分析 —对应分析 |
常见的连续型随机变量的分布 | ● 正太分布 ● 指数分布 ● 均匀分布 ● 卡方分布 ● t分布 ● F分布 |
数据预处处理 | ● 数据清洗 ● 数据集成 ● 数据变换 ● 数据规约 |
Python 数据处理 | ● Python 的数值类型; ● 字符串概念、语法及应用; ● 列表、元组概念、语法及应用; ● 列表推导的使用; ● 字典、集合概念、语法及应用; ● Python循环介绍:while、if...else、for; ● Python匿名函数lambda介绍 ● Python面向对象编程思想 ● 基于python的“数据分析和挖掘基础”实现 ● 基于Python的“常见的连续型随机变量的分布”实现 |
Python编程工具介绍 | ● Jupyter工具介绍和使用 ● pycharm工具介绍 |
Python常用库基本使用 | ● Numpy基本使用 ● Pandas基本使用 ● 数据加载与处理 ● Pandas分组与合并 ● Pandas时间序列 ● Matplotlib基本使用 ● Scikit-Learn基本使用 |
Spark常用数据分析和挖掘使用 | ● Spark 技术介绍 ● Spark mllib数据分析和挖掘工具介绍 ● SparkR 数据分析和挖掘技术介绍 ● Spark GraphX图处理技术介绍 |
AI深度学习技术介绍 | ● TensorFlow深度学习框架介绍 ● TensorFlow平台的功能和集成的常用深度学习算法介绍 ● Caffe深度学习框架介绍 ● Caffe常用深度学习算法介绍 ● Keras度学习框架介绍 ● Keras常用深度学习算法介绍 ● TensorFlow、Caffe和Keras比较 |
数据挖掘方法论介绍 | ● 数据挖掘的基本任务 ● 定义挖掘目标 ● 数据取样 ● 数据探索 ● 数据预处理 ● 挖掘建模 ● 模型评价 ● 常见的挖掘算法 |
python数据分析和挖掘可视化和绘图 | ● matplotlib 基础 ● pandas 中的绘图函数 ● 实战:图形化显示地理数据 ● 实战:Python 图形化工具生 态系统 |
Scikit-learn介绍 | ● Scikit-learn库介绍 ● Scikit-learn安装 ● 基于Scikit-learn的常用挖掘算法实战 ● 基于Scikit-learn数据挖掘流程 —数据读取 —数据标准化 —特征提取 —升维和降维 |
回归模型算法分类和应用场景介绍 | ● 线性回归 ● 非线性回归 ● Logistic回归 ● 岭回归 ● 主成分分析 |
常用数据挖掘使用介绍 | ● 常用算法的应用场景介绍 ● 决策树算法介绍和实战 ● 随机森林算法介绍和实战 ● 神经网络算法介绍和实操 ● 时间序列介绍和实操 ● 贝叶斯算法介绍和实操 |
非监督学习算法介绍 | ● 降维方法 ● 主成分分析(PCA) ● 聚类方法 ● 层次聚类 ● K-means |
金融数据挖掘项目实战 | ● 金融数据分析及欺诈检测实操 —数据准备 —探索性数据分析(EDA)及可视化 —数据处理 —数据建模 —模型验证和性能调优 |