课程背景
随着大数据时代的快速到来,以及大数据在生产生活中迅速应用,大数据领域如雨后春笋般的出现大量的新技术,如 Hadoop、Spark 等技术,其中 Python语言已经成为大数据技术中最为重要的一部分,被越来越多的企业所使用。 Python 语言的功能涵盖了大数据领域的数据处理、统计分析、数据挖掘、机器 学习、人工智能、大数据应用开发等各种不同类型的计算操作,应用范围广泛、 前景非常广阔。本课程是尹老师多年工作经验的总结和归纳,从实际业务案例为 入口,使学员从理论层到实操层面系统的学习数据处理技术,使学员深入理解 Python 语言等数据分析工具。通过本课程的学习,学员即可以正确的分析企业 的数据,为管理者、决策层提供数据支撑。
本课程重点讲解基于 Python 语言编程、数据处理、数据探索、人工智能、 深度学习等,对 Python 语言算法原理及实现进行讲解,及在大数据的应用技巧, 为企业的战略决策提供参考。
培训目标
1、使学员具备 Python 语言编程能力;
2、掌握数据分析思路,学习提炼数据、分析数据和建立数据模型的方法;
3、让学员掌握统计分析知识,包括概率统计、术语和基本统计的算法等;
4、使学员具备数据收集、数据挖掘、信息提取的能力;
5、使学员具备 Python 语言数据分析与建模能力,分析企业数据的能力;
6、使学员具备数据分析与建模为企业管理者制定战略决策提供数据依据;
7、使学员深入理解数据分析与数据模型的概念、技术、思维模式;
8、使学员具备利用图形辅助思考的能力;
9、使学员具备人工智能、深度学习研发能力。
培训对象
1、即将投身于大数据、数据分析、数据挖掘、人工智能领域的企业或个人;
2、本课程适合于想通过数据化决策制定企业战略的决策者;
3、适合于经常需要汇报工作的管理者;
4、对数据可视化分析、数据可视化展现等感兴趣的人士;
5、对数据分析、数据挖掘算法等感兴趣的人士;
6、对 Python 语言感兴趣的数据分析人士;
7、大型集团公司、大型网站、电商网站等数据挖掘、数据分析人员;
8、云计算、大数据从业者;
9、系统架构师、系统分析师、高级程序员、资深开发人员;
10、牵涉到大数据的数据中心运维、规划、设计负责人;
11、政府机关,金融保险、移动互联网、能源行业等大数据相关人员;
12、高校、科研院所统计分析研究员,涉及到数据处理的人员;
培训方式
以课堂讲解、演示、案例分析为主,辅以互动研讨、现场答疑、学以致用。
课程大纲
时间 | 内容 | 备注 |
第1天 | 第1个主题: Python 语言基础知识(介绍 Python 语言基础知识,包括 Python 语言数据类型、基础概念等)(180 分钟) 1、Python 语言历史与趋势剖析 2、Python 语言安装 3、如何运行 Python 程序 4、Python 语言 help()命令 5、 Python 语言编程环境安装 6、Anaconda3 开发环境介绍( 以 Anaconda3 作为 程序演示环境, Python3 作为演示语言) 7、Python 2 和 Python 3 的区别 8、运行 Python 代码 9、在不同操作系统中搭建 Python 编程环境 10、在 Linux 系统中搭建 Python 编程环境 11、在 OS X 系统中搭建 Python 编程环境 12、在 Windows 系统中搭建 Python 编程环境 13、解决安装问题 14、从终端运行 Python 程序 15、在 Linux 和 OS X 系统中从终端运行 Python 程序 16、在 Windows 系统中从终端运行 Python 程序 17、小结
第2个主题: Python 语言数据类型(介绍 Python 语言基础数据类型、基 础概念等)(180 分钟) 1、Python 基本语法 2、避免缩进错误 3、忘记缩进 4、忘记缩进额外的代码行 5、不必要的缩进 6、循环后不必要的缩进 7、遗漏了冒号 8、创建数值列表 9、变量(Variables) 10、变量的命名和使用 11、使用变量时避免命名错误 12、表达式(Expressions) 13、基本数据类型 14、整数 15、浮点数 16、字符串 17、字符串连接 18、注释 19、如何编写注释 20、该编写什么样的注释 21、字符串与正则表达式 22、案例实战:正则表达式在爬虫中应用实例 23、Python 数据结构 24、 Python 创建数组 25、Python 矩阵运算 26、 Python 语言语法结构 27、Python 调试 28、案例:Python 语言实现数据分析处理 29、小结 | |
第2天 | 第3个主题: Python 语言列表(介绍 Python 语言列表)(240 分钟) 1、列表是什么 2、访问列表元素 3、索引从 0 开始 4、使用列表中的各个值 5、修改、添加和删除元素 6、修改列表元素 7、在列表中添加元素 8、从列表中删除元素 9、使用方法 sort()对列表进行永久性排序 10、使用函数 sorted()对列表进行临时排序 11、确定列表的长度 12、使用列表时避免索引错误 13、遍历整个列表 14、 使用函数 range() 15、使用 range()创建数字列表 16、对数字列表执行简单的统计计算 17、列表解析 18、使用列表的一部分 19、切片 20、遍历切片 21、复制列表
第4个主题: Python 语言元组 (介绍 Python 语言元组)(120 分钟) 1、元组 2、定义元组 3、遍历元组中的所有值 4、修改元组变量 5、小结 | |
第3天 | 第5个主题: Python 语言集合(介绍 Python 语言集合)(120 分钟) 1、集合 2、定义集合 3、遍历集合中的所有值 4、修改集合元素 5、小结 第6个主题: Python 语言字典(介绍 Python 语言字典)(240 分钟) 1、使用字典 2、访问字典中的值 3、添加键值对 4、创建空字典 5、修改字典中的值 6、删除键值对 7、由类似对象组成的字典 8、遍历字典 9、遍历所有的键—值对 10、遍历字典中的所有键 11、按顺序遍历字典中的所有键 12、遍历字典中的所有值 13、嵌套 14、字典列表 15、在字典中存储列表 16、在字典中存储字典 17、小结 | |
第4天 | 第7个主题:条件分支语句(介绍 Python 语言分支语句,如 if 语句)(180 分钟) 1、条件测试 2、检查是否相等 3、布尔表达式 4、if 语句 5、简单的if语句 6、if-else 语句 7、if-elif-else 结构 8、使用多个 elif 代码块 9、省略 else 代码块 10、测试多个条件 11、使用 if 语句处理列表 12、检查特殊元素 13、确定列表不是空的 14、使用多个列表 15、设置 if 语句的格式 16、小结
第8个主题:循环语句(深入 Python 函数的循环语句)(180 分钟) 1、循环简介 2、使用 while 循环 3、使用 for 循环 4、使用标志 5、使用 break 退出循环 6、在循环中使用 continue 7、避免无限循环 8、使用循环来处理列表和字典 9、在列表之间移动元素 10、删除包含特定值的所有列表元素 11、使用用户输入来填充字典 12、小结 | |
第5天 | 第9个主题: Python 函数(深入 Python 函数的编写语言)(180 分钟) 1、Python 函数介绍 2、Python 语言定义函数规则 3、Python 语言自定义函数 4、Python 匿名函数 5、Python 内置函数 6、Python 函数案例 7、自定义函数 8、向函数传递参数 9、实参和形参 10、传递实参 11、位置实参 12、关键字实参 13、默认值 14、等效的函数调用 15、避免实参错误 16、返回值 17、返回简单值 18、让实参变成可选的 19、返回字典 20、结合使用函数和 while 循环 21、传递列表 22、在函数中修改列表 23、禁止函数修改列表 24、传递任意数量的实参 25、结合使用位置实参和任意数量实参 26、使用任意数量的关键字实参 27、将函数存储在模块中 28、导入整个模块 29、导入特定的函数 30、使用 as 给函数指定别名 31、使用 as 给模块指定别名 32、导入模块中的所有函数 33、函数编写指南 34、小结 第10个主题: Python 类(class)(深入剖析Python类的原理)(180 分钟) 1、类(class)介绍 2、创建和使用类 3、创建 Account 类 4、类的方法__init__() 5、根据类创建实例 6、使用类和实例 7、给属性指定默认值 8、修改属性的值 9、继承 10、子类的方法__init__() 11、Python2.7 中的继承 12、给子类定义属性和方法 13、重写父类的方法 14、将实例用作属性 15、Python 多重继承 16、Python 不支持函数重载 17、Class and Instance Variables 18、Method Objects 19、运行时为对象绑定属性 20、Python 类编写案例实战 21、导入类 22、导入单个类 23、在一个模块中存储多个类 24、从一个模块中导入多个类 25、导入整个模块 26、导入模块中的所有类 27、在一个模块中导入另一个模块 28、自定义工作流程 29、Python 标准库 30、 类编码风格 31、 小结 | |
第6天 | 第11个主题: Python 异常处理(Exceptions)(深入剖析Python异常处理)(120 分钟) 1、异常(Exceptions)简介 2、异常处理 3、处理 ZeroDivisionError 异常 4、使用 try-except 代码块 5、使用异常避免崩溃 6、else 代码块 7、处理 FileNotFoundError 异常 8、分析文本 9、使用多个文件 10、决定报告哪些错误 11、存储数据 12、使用 json.dump()和 json.load() 13、保存和读取用户生成的数据 14、Python 标准异常类 15、Python 异常类编程案例实战(爬虫实例) 16、重构 17、小结
第12个主题: Python 模块 (Modules)(深入剖析模块(Modules))(120 分钟) 1、Python 模块 (Modules)介绍 2、Python 自定义模块 3、Python 模块的导入与添加 4、Python 模块的重新导入 5、Python 标准函数库模块 6、Python 第三方模块
第13个主题: Python文件读写(深入剖析Python文件读写)(60分钟 1、Python 文件读写简介 2、Python 读写方法介绍 3、Python 读写文本文件 4、从文件中读取数据 5、读取整个文件 6、文件路径 7、逐行读取 8、创建一个包含文件各行内容的列表 9、使用文件的内容 10、写入文件 11、写入空文件 12、写入多行 13、附加到文件 14、Python 读写二进制文件 15、Python 读写 json 文件 16、Python 读写 xml 文件
第14个主题:多线程编程 (用实战实例介绍如何实现多线程) (60 分钟) 1、Python 开发多线程的原理 2、多线程创建 3、线程锁 4、网络应用程序编程 5、实例:比如生成发送电子邮件 | |
第7天 | 第15个主题: Python 语言测试(深入剖析 Python 的测试函数)(120 分钟) 1、测试函数 2、单元测试和测试用例 3、边界值 4、等价类 5、可通过的测试 6、不能通过的测试 7、测试未通过时怎么办 8、添加新测试 9、测试类 10、各种断言方法 11、一个要测试的类 12、测试 AnonymousSurvey 类 13、方法 setUp() 14、小结
第16个主题: Python 正则表达式(深入剖析 Python 正则表达式)(240 分钟) 1、 Python 通配符 2、 正则表达式 3、 表示边界 4、 匹配分组 5、 高级用法 6、 应用案例:邮箱格式提取 7、 应用案例:数据集采集 8、 贪婪与非贪婪模式 | |
第8天 | 第17个主题: Python 操作关系型数据库(深入剖析 Python 操作关系型 数据)(120 分钟) 1、 Python2 安装 MySQL Connector 2、 Python3 安装 MySQL Connector 3、 Python2 安装 Oracle Connector 4、 Python3 安装 Oracle Connector 5、 Python 语言操作数据库 6、 Python 语言数据库优化 7、 案例:Python 语言实现话务数据时间序列建模
第18个主题: SQL语言基础及调优(深入剖析 SQL 关系型数据操作语言(240 分钟) 1、 SQL 语言简介 2、 SQL 语言的特点 3、 SQL 语言的分类 4、 SQL 语言的编写规则 5、 用户模式 6、 模式与模式对象 7、 示例模式 SCOTT 8、 检索数据 9、 简单查询 10、 筛选查询 11、 分组查询 12、 排序查询 13、 多表关联查询 14、 常用系统函数 15、 字符类函数 16、 数字类函数 17、 日期和时间类函数 18、 转换类函数 19、 聚合类函数 20、 子查询的用法 21、 什么是子查询 22、 单行子查询 23、 多行子查询 24、 关联子查询 25、 操作数据库 26、 插入数据(INSERT 语句) 27、 更新数据(UPDATE 语句) 28、 删除数据(DELETE 语句和 TRUNCATE 语句) 29、 事务处理 30、 事务概述 31、 操作事务 32、 常规 SQL 语句优化 33、 建议不用“*”来代替所有列名 34、 用 TRUNCATE 代替 DELETE 35、 在确保完整性的情况下多用 COMMIT 语句 36、 尽量减少表的查询次数 37、 用[NOT] EXISTS 代替[NOT] IN 38、 表连接优化 39、 驱动表的选择 40、 WHERE 子句的连接顺序 41、 合理使用索引 42、 何时使用索引 43、 索引列和表达式的选择 44、 选择复合索引主列 45、 避免全表扫描大表 46、 监视索引是否被使用 47、 优化器的使用 48、 优化器的概念 49、 运行 EXPLAIN PLAN 50、 SQL 执行计划的管理 51、 数据库和 SQL 重演 52、 数据库重演 53、 SQL 重演 54、 SQL 调优顾问 55、 SQL 访问顾问 56、 综合实例——查询工资不小于 WARD 的员工信息 57、 知识点提炼 58、 实验:更新表中数据 59、 实验目的 60、 实验内容 61、 实验步骤 | |
第9天 | 第19个主题:存储过程编程(深入剖析存储过程)(120 分钟) 1、存储过程简介 2、存储过程块结构 3、代码注释和标识符 4、数据类型、变量和常量 5、基本数据类型 6、特殊数据类型 7、定义变量和常量 8、流程控制语句 9、选择语句 10、循环语句 11、存储过程游标 12、 显式游标 13、 游标属性 14、 隐式游标 15、 通过 for 语句循环游标 16、 存储过程异常处理 17、 预定义异常 18、 自定义异常 19、 综合实例——使用游标查询工资小于 1000 元的员工工资 20、 知识点提炼 21、 实验:游标提取比指定员工工资少的员工信息 22、 实验目的 23、 实验内容 24、 实验步骤 第20个主题:存储过程、函数、触发器和包(深入存储过程、函数、触发器和包)(120 分钟) 1、 存储过程 2、 创建存储过程 3、 存储过程的参数 4、 IN 参数的默认值 5、 函数 6、 创建函数 7、 调用函数 8、 删除函数 9、 触发器 10、 触发器简介 11、 语句级触发器 12、 行级别触发器 13、 替换触发器 14、 用户事件触发器 15、 程序包 16、 程序包的规范 17、 程序包的主体 18、 综合实例——创建带参数的存储过程 19、 知识点提炼 20、 实验:通过触发器实现当 emp 表中删除数据时 bonus 表中对应数据也删除 21、 实验目的 22、 实验内容 23、 实验步骤 第21个主题:数据表对象(深入剖析数据表对象)(120 分钟) 1、 数据表概述 2、 创建数据表 3、数据表的逻辑结构 4、 创建数据表 5、 数据表的特性 6、 维护数据表 7、 增加和删除字段 8、 修改字段 9、 重命名表 10、 改变表空间和存储参数 11、 删除表 12、 修改表的状态 13、 数据完整性和约束性 14、 非空约束 15、 主键约束 16、 唯一性约束 17、 外键约束 18、 禁用和激活约束 19、 删除约束 20、 综合实例——创建用户表并添加唯一性约束 21、 知识点提炼 22、 实验:关联表之间的级联删除 23、 实验目的 24、 实验内容 25、 实验步骤 | |
第10天 | 第22个主题: 视图、索引、序列、同义词(深入剖析视图、索引、序列 同义词)(120 分钟) 1、 视图对象 2、 创建视图 3、 管理视图 4、 索引 5、 索引概述 6、 创建索引 7、 修改索引 8、 删除索引 9、 显示索引信息 10、 序列 11、 创建序列 12、 管理序列 13、 同义词 14、 综合实例——创建多表连接视图 15、 知识点提炼 16、 实验:为用户表创建索引 17、 实验目的 18、 实验内容 19、 实验步骤
第23个主题:表分区与索引分区(深入剖析表分区与索引分区)(120 分钟) 1、 分区技术简介 2、 创建表分区 3、 范围分区 4、 散列分区 5、 列表分区 6、 组合分区 7、 Interval 分区 8、 表分区策略 9、 管理表分区 10、 添加表分区 11、 合并分区 12、 删除分区 13、 并入分区 14、 创建索引分区 15、 索引分区概述 16、 本地索引分区 17、 全局索引分区 18、 管理索引分区 19、索引分区管理的操作列表 20、索引分区管理的实际操作 21、综合实例——创建图书表,并按图书编号创建表分区 22、 知识点提炼 23、 实验:为工作表创建索引分区 24、 实验目的 25、 实验内容 26、 实验步骤
第24个主题:数据导出和导入(深入剖析数据导出和导入)(120 分钟 1、 导出和导入概述 2、 导出导出数据 3、 执行导出命令 4、 导出命令参数 5、 导入导入数据 6、 执行导入命令 7、 导入命令参数 8、 加载数据 9、 综合实例——使用导出工具导出 HR 模式中的 employees 表 10、 知识点提炼 11、 实验:导入数据表 12、 实验目的 13、 实验内容 14、 实验步骤 | |
第11天 | 第25个主题:Python 自动化办公(介绍 Python 自动化办公)(360 分钟 1、 Python 读写 Word 文档插件介绍 2、 Python 读写 Word 文档实践 3、 Python 读写 Excel 数据插件介绍 4、 Python 读写 Excel 数据实践 5、 Python 读写 PPT 插件介绍 6、 Python 读写 PPT 实践 7、 xlrd 库用于读取 EXCEL 表中的数据 8、 案例:用 Python 自动化生图文并茂的数据分析报告 | |
第12天 | 第26个主题:数据分析与建模概述(深入剖析数据数据分析与建模的过 程与方法,介绍数据建模中的机器学习与数据挖掘)(30 分钟) 1、 数据分析与建模的概念 2、 数据分析与建模过程 3、 数据分析模型开发过程 4、 数据建模概述 5、 机器学习概念 6、 机器学习算法剖析 7、 算法库分类 8、 算法库
第27个主题:数据预处理(剖析数据预处理技术)(30 分钟) 1、 数据分析挖掘的过程 2、 建立数据库的方法 3、 企业对数据分析挖掘的错误认识 4、 有效运用数据为客户提供针对性、主动化服务(精准营销) 5、 数据源 6、 数据采集 7、 随机抽样 8、 数据去重 9、 数据缺失值处理 10、 检验数据逻辑错误 11、 离群点检测 12、 数据转换 13、 数据分组 14、 课堂实操:数据预处理案例讲解 第28个主题: Python 数据挖掘基础(介绍 Python 数据挖掘基础知识)(60 分钟) 1、 数据挖掘的基本任务 2、 数据挖掘建模过程 a) 定义挖掘目标 b) 数据取样 c) 数据探索 d) 数据预处理 e) 挖掘建模 f) 模型评价 3、 常用的数据挖掘建模 a) 回归(预测)与分类 b) 决策树与随机森林 c) 聚类分析 d) 关联规则 e) 时序模式 f) 离群点检测 4、 案例:银行用户借记卡聚类分析案例分享 第29个主题: Python 数据分析工具(介绍 Python 典型的数据分析库)(30 分钟) 1、 Python 数据分析工具概述 2、 Numpy 数据处理 3、 Scipy 数值计算 4、 SymPy 符号处理 5、 Matplotlib 绘制图表 6、 Pandas 数据分析、探索工具 7、 StatsModels 数据统计建模分析 8、 Scikit-Learn 机器学习库 9、 Keras 人工神经网络 10、 Gensim 文本挖掘库 11、 配套资源使用设置 12、 案例:金融诈骗案例分享 第30个主题: 数据的描述性分析(深入剖析数据的描述性分析)(30 分钟) 1、 统计学基本概念 2、 统计数据的计量尺度 3、 常用基本统计量 4、 集中趋势的描述指标 5、 离散趋势的描述指标 6、 中心极限定理 7、 大数定律 8、 数据的分布 9、 正态分布的特征 10、 偏度和峰度 11、 检测数据集的分布 12、 数据的分布拟合检验与正态性检验 13、 散点图 14、 直方图 15、 经验分布函数 16、 QQ 图 17、 茎叶图 18、 离群点检测 19、 箱型图检验离群值 20、 盖帽法 21、 课堂实操:Python 语言描述性统计分析实现(时长 30 分钟;老师带领学员一起操作,及学员问题指导员)
第31个主题:方差分析(深入剖析方差分析方法及 Python 语言实现)(60分钟) 1、 单因素方差分析 2、 单因素方差分析模型 3、 因素效应的显著性检验 4、 因素各水平均值的估计与比较 5、 两因素等重复试验下的方差分析 6、 统计模型 7、 交互效应及因素效应的显著性检验 8、 无交互效应时各因素均值的估计与比较 9、 有交互效应时因素各水平组合上的均值估计与比较 10、两因素非重复试验下的方差分析 11、 金融案例:Python 语言方差分析实现 12、 课堂实操:Python 语言方差分析实现(时长 50 分钟;老师带领学员一起操作,及学员问题指导员) 第32个主题: Bayes 统计分析(深入剖析 Bayes 统计分析)(60 分钟) 1、 Baves 统计模型 2、 Bayes 统计分析的基本思想 3、 Bayes 统计模型 4、 Bayes 统计推断原则 5、 先验分布的 Bayes 假设与不变先验分布 6、 共轭先验分布 7、 先验分布中超参数的确定 8、 Baves 统计推断 9、 参数的 Bayes 点估计 10、 Bayes 区间估计 11、 Bayes 假设检验 12、 案例:Python 语言实现 Bayes 统计分析建模 13、 课堂实操:Python 语言实现 Bayes 统计分析建模
第33个主题:判别分析(深入剖析判别分析及 Python 语言实现)(30分钟) 1、 距离判别 2、 两个总体的距离判别 3、 判别准则的评价 4、 多个总体的距离判别 5、 Baves 判别 6、 Bayes 判别的基本思想 7、 两个总体的 Beyes 判别 8、 多个总体的 Beyes 判别 9、 案例:Python 语言判别分析模型实现 10、 课堂实操:Python 语言判别分析模型实现
第34个主题: 主成分分析(深入剖析主成分分析及 Python 语言实现)(30 分钟) 1、 主成分分析 2、 总体主成分 3、 样本主成分 4、 主成分分析模型 5、 案例:Python 语言主成分分析模型实现 6、 课堂实操:Python 语言主成分分析模型实现(时长 30 分钟;老师 带领学员一起操作,及学员问题指导员)
第35个主题:蒙特卡洛模拟(介绍蒙特卡模拟数据分析方法)(60 分钟 1、 随机数生成 2、 蒙特卡洛模拟 3、 蒙特卡洛模拟 4、 用蒙特卡罗方法计算圆周率π 5、 案例:Python 语言实现蒙特卡罗求圆周率 6、 课堂实操:Python 语言实现蒙特卡罗求圆周率 | |
第13天 | 第36个主题: Python 语言 Numpy 工具(深入剖析 Python 语言 Numpy 工 具)(180 分钟) 1、 NumPy 安装 2、 NumPy Ndarray 对象 3、 NumPy 数据类型 4、 NumPy 数组属性 5、 NumPy 创建数组 6、 NumPy 从已有的数组创建数组 7、 NumPy 从数值范围创建数组 8、 NumPy 切片和索引 9、 NumPy 高级索引 10、 NumPy 广播(Broadcast) 11、 NumPy 迭代数组 12、 Numpy 数组操作 13、 NumPy 位运算 14、 NumPy 字符串函数 15、 NumPy 数学函数 16、 NumPy 算术函数 17、 NumPy 统计函数 18、 NumPy 排序、条件刷选函数 19、 NumPy 字节交换 20、 NumPy 副本和视图 21、 NumPy 矩阵库(Matrix) 22、 NumPy 线性代数 23、 NumPy IO 24、 NumPy Matplotlib
第37个主题: Python 语言 Pandas 包(深入剖析 Python 语言 Pandas 包(180 分钟) 1、 Pandas 环境安装配置 2、 Pandas 数据结构 3、 Pandas 快速入门 4、 Pandas 系列 5、 Pandas 数据帧(DataFrame) 6、 Pandas 面板(Panel) 7、 Pandas 基本功能 8、 Pandas 描述性统计 9、 Pandas 函数应用 10、 Pandas 重建索引 11、 Pandas 迭代 12、 Pandas 排序 13、 Pandas 字符串和文本数据 14、 Pandas 选项和自定义 15、 Pandas 索引和选择数据 16、 Pandas 统计函数 17、 Pandas 窗口函数 18、 Pandas 聚合 19、 Pandas 缺失数据 20、 Pandas 分组(GroupBy) 21、 Pandas 合并/连接 22、 Pandas 级联 23、 Pandas 日期功能 24、 Pandas 时间差(Timedelta) 25、 Pandas 分类数据 26、 Pandas 可视化 27、 Pandas IO 工具 28、 Pandas 稀疏数据 29、 Pandas 注意事项&窍门 30、 Pandas 与 SQL 比较 | |
第14天 | 第38个主题: Python 语言数据可视化(深入剖析 Python 语言数据可视 化)(60 分钟) 1、 什么是数据可视化 2、 数据和视觉编码 3、 可视化的工具介绍 4、 Python matplotlib 库介绍 5、 可视化的图表选择 6、 可视化设计的原则 7、 利用 Python 库完成图表 8、 时序数据的可视化 9、 地理空间数据的可视化 10、 多元数据的可视化 11、 统计分布数据的可视化 12、 可视化的交互与动画展示
第39个主题: Python 语言实现绘图(Python 语言实现绘图)(180 分钟 1、 用 python 完成的基本图形绘制 2、 用 python 完成时间序列的图表 3、 用 python 完成地图类型的图表 4、 用 python 完成多元数据的图表 5、 用 python 完成统计分布类型的图表 6、 用 python 完成可交互和带动画的图表
第40个主题: pyecharts 数据可视化(深入剖析 pyecharts 数据可视化(120 分钟) 1、 什么是 pyecharts 数据可视化 2、 pyecharts 安装介绍 3、 pyecharts 绘图 4、 pyecharts 柱形图/条形图 5、 pyecharts 堆叠(柱状)图 6、 pyecharts 折线/面积图 7、 pyecharts 饼图 8、 pyecharts 散点图 9、 pyecharts 地图 pyecharts 地图数据接口 10、 pyecharts 词云图 11、 pyechart 图标叠加 Overlap | |
第15天 | 第41个主题:回归分析与分类分析(深入剖析数据的回归分析与分类分 析)(360 分钟) 1、 回归与分类 2、 回归分析概念 3、 线性回归模型及其参数估计 4、 一元线性回归 5、 一元线性回归模型 6、 一元线性回归模型求解参数 7、 损失函数 8、 求偏导 9、 回归方程的显著性检验 10、 残差分析 11、 误差项的正态性检验 12、 残差图分析 13、 统计推断与预测 14、 回归模型的选取 15、 穷举法 16、 逐步回归法 17、 岭回归分析 18、 Python 语言一元线性回归 19、 金融案例:Python 语言一元线性回归模型检验 20、 多元线性回归概述 21、 多元线性回归模型 22、 金融案例:Python 语言多元线性回归实现 23、 非线性回归 a) 双曲线函数 b) 幂函数 c) 指数函数 d) 对数函数 e) S 型曲线 24、 案例:Python 语言非线性回归实现 25、 课堂实操:Python 语言非线性回归实现 | |
第16天 | 第42个主题:非线性回归(非线性回归剖析,Python 语言实现及预测应 用)(180 分钟) 1、 双曲线函数 2、 幂函数 3、 指数函数 4、 对数函数 5、 S 型曲线 6、 实操:Python 语言非线性回归 7、 逐步回归分析 8、 岭回归分析
第43个主题: Logistic 回归分析(剖析 Logistic 回归与其它回归分析 方法)(180 分钟) 1、 Logistic 回归介绍 2、 Logistic 函数 3、 Logistic 回归模型 4、 案例:Python 语言 Logistic 回归实现 5、 课堂实操:Python 语言 Logistic 回归实现(时长 30 分钟;老师 带领学员一起操作,及学员问题指导员) | |
第17天 | 第44个主题:机器学习(介绍机器学习概念为深度学习奠定基础)(120 分钟) 1、 机器学习概念 2、 机器学习能学习什么? 3、 机器学习是如何学习的? 4、 从哪里学习? 5、 学习的目的是什么? 6、 学习的方法是什么? 7、 学习方式分类 a) 监督式学习 b) 非监督式学习 c) 半监督式学习 d) 强化学习 8、 训练集、测试集与验证集 9、 模型评分 10、 损失函数 a) 最小二乘法 b) 梯度下降 c) 极大似然 11、 激活函数 a) S 型曲线 b) 反正切 c) relu d) 阶跃 12、 二元分类器 13、 多元分类器 a) Softmax 14、 求导 15、 求偏导 16、 链式求导 17、 机器学习的过程 a) 收集数据 b) 预处理数据 c) 探知数据 d) 分析数据 e) 选择模型 f) 训练模型 g) 评估模型 h) 发布模型 18、 算法库分类 19、 算法库 第45个主题:机器学习算法剖析(典型的大数据挖掘机器学习算法剖析(60 分钟) 1、 回归分析 2、 逻辑回归 3、 聚类算法解析 a) K-means Clustering b) Bisecting k-means c) Gaussian Mixture Model (GMM) d) Canopy Clustering e) Fuzzy K-means f) Expectation Maximization g) Mean Shift Clustering h) Hierarchical Clustering i) Dirichlet Process Clustering j) Latent Dirichlet Allocation(LDA) k) Spectral Clustering 4、 分类算法解析 l) Linear regression m) Generalized linear regression n) Logistic regression o) Decision tree p) Random forest q) Gradient-boosted tree r) Multilayer perceptron classifier s) One-vs-Rest classifier (a.k.a. One-vs-All) t) Naive Bayes u) Survival regression v) Isotonic regression 5、 决策树算法 6、 支持向量机 7、 KNN 8、 关联规则算法 9、 协同过滤算法解析 10、 训练数据集与评分 11、 神经网络 12、 深度学习 13、 前瞻性场景化案例剖析:Python 语言实现逻辑回归
第46个主题: 数据建模常用距离(深入剖析数据建模过程中常用的距离 模型)(60 分钟) 1、 数据挖掘常用距离 2、 欧氏距离 3、 曼哈顿距离 4、 切比雪夫距离 5、 闵可夫斯基距离 6、 标准化欧氏距离 7、 马氏距离 8、 夹角余弦 9、 汉明距离 10、 杰卡德距离 & 杰卡德相似系数 11、 相关系数 & 相关距离 12、 信息熵
第47个主题:聚类分析与建模实现(深入剖析聚类分析以及通过 Python 语言聚类算法模型分析数据)(120 分钟) 1、 聚类分析 2、 聚类算法 3、 样品间相近性的度量 4、 快速聚类法 5、 快速聚类法的步骤 6、 用 Lm 距离进行快速聚类 7、 谱系聚类法 8、 类间距离及其递推公式 9、 谱系聚类法的步骤 10、 变量聚类 11、 案例:Python 语言聚类实现及绘图 12、 案例:Kmeans 应用案例剖析 13、 课堂实操:用 Python 编写 Spark 程序实现 Kmeans 应用案例剖析(时长 30 分钟;老师带领学员一起操作,及学员问题指导员) | |
第18天 | 第48个主题:决策树分析与实现(深入剖析决策树分析以及通过 Python 语言决策树模型分析数据)(180 分钟) 1、 决策树分析 2、 决策树 3、 决策树构成要素 4、 决策树算法原理 5、 决策树法的决策过程 6、 决策树算法 7、 信息熵 8、 ID3 算法 9、 C4.5 算法 10、 CART 算法 11、 决策树算法 12、 剪枝 13、 过拟合与调参 14、 案例:Python 语言实现决策树分析 15、 课堂实操:Python 语言实现决策树分析 16、 随机森林
第49个主题: 随机森林模型原理与实现(深入剖析随机森林原理以及通 过 Python 语言实现随机森林模型)(180 分钟) 1、 随机森林介绍 2、 随机森林的特点 3、 随机森林的相关基础知识 4、 信息、熵以及信息增益的概念 5、 随机森林的生成 6、 随机森林算法 7、 随机森林算法原理 8、 袋外错误率(oob error) 9、 随机森林应用场景 10、 随机森林应用案例 11、 案例:Python 语言实现随机森林模型 12、 课堂实操:Python 语言实现随机森林模型 13、 xgboost | |
第19天 | 第50个主题: 支持向量机模型原理与实现(深入剖析支持向量机算法原理以及通过 Python 语言实现支持向量机模型)(180 分钟) 1、 支持向量机介绍 2、 支持向量机应用场景 3、 支持向量机应用案例 4、 支持向量机算法 5、 支持向量机算法原理 6、 线性可分支持向量机 7、 间隔最大化和支持向量 8、 对偶问题求解 9、 柆格朗日函数 10、 非线性支持向量机和核函数 a) 超平面 b) 线性核 c) 多项式核 d) 高斯核 e) 拉普拉斯核 f) sigmiod 核 11、 线性支持向量机(软间隔支持向量机)与松弛变量 12、 松驰因子 13、 案例:Python 语言实现支持向量机模型 14、 课堂实操:Python 语言实现基于 SVM 的字符识别方法
第51个主题:关联规则分析与实现(深入剖析关联规则分析以及通过 Python 语言关联规则算法模型分析数据)(180 分钟) 1、 关联规则 2、 支持度与置信度 3、 关联规则挖掘的过程 4、 Apriori 算法 5、 关联规则案例 6、 支持度与置信度计算 7、 案例:Python 语言实现关联规则 8、 课堂实操:Python 语言实现关联规则(时长 30 分钟;老师带领员一起操作,及学员问题指导员) | |
第20天 | 第52个主题: 数据建模时序模式分析与实现(深入剖析时序模式分析 (180 分钟) 1、 时序模式 2、 时间序列分析 3、 时间序列分析 4、 时间序列 5、 序列分析的三个阶段 6、 案例:Python 语言实现金融数据时间序列建模 7、 课堂实操:Python 语言实现金融数据时间序列建模(时长 30 分钟; 老师带领学员一起操作,及学员问题指导员)
第53个主题: 精准营销实战(深入理解推荐技术以及推荐技术编程)(180 分钟) 1、 个性化推荐的理论依据 2、 个性化推荐的价值 3、 个性化推荐能达到的目的 4、 个性化推荐的原则 5、 个性化推荐技术发展史 6、 个性化推荐的相关技术 7、 基于用户的常用推荐算法 8、 基于用户的协同过滤推荐 课堂实操:基于余弦相似度的精准营销(时长:30分钟,老师带领学 员一起操作,及学员问题指导员) | |
第21天 | 第54个主题: Python 大数据编程(使用 Python 编写 Spark 程序)(120 分钟) 1、 PySpark 介绍 2、 Python 创建 RDD 3、 Python lambda 语法介绍 4、 PySpark 程序打包与运行 5、 案例:基于信用卡用户相似性的精准营销 第55个主题: Spark 大数据内存计算技术(深入剖析 Spark Core 实现原理)(120 分钟) 1、 Spark 概述 2、 Spark 基本概念介绍 3、 Spark 架构剖析 4、 Spark 运行环境介绍 5、 Spark 集群部署 6、 Mesos 介绍 7、 Spark RDD 计算模型解析 8、 Spark RDD 操作剖析 9、 Spark DataSet 计算模型解析 10、 Spark DataSet 操作剖析 11、 Spark DataFrame 计算模型解析 12、 Spark DataFrame 操作剖析 13、 DAG 有向无环图介绍 14、 Spark Shell 命令行交互式编程 15、 Spark 脚本编程 16、 利用 Python 语言开发 Spark 程序 PySpark 17、 构建与运行 Spark 应用 18、 Spark 编程实战 a) Java 编写 Spark 程序 b) Scala 编写 Spark 程序 c) Python 编写 Spark 程序 d) R 编写 Spark 程序 第56个主题: Spark 可访问外部数据源(剖析 Spark 访问外部数据源)(120 分钟) 1、 Spark 分布式文件读写 2、 文件系统 3、 HDFS 4、 HBase 5、 Hive 6、 Cassandra 7、 Tachyon 8、 编程实战:Spark 操作外部数据源编程实战 9、 Spark 实战案例:Spark 与 HBase 整合分析数据 | |
第22天 | 第57个主题: PySpark 编程基础操作(深入剖析 PySpark 编程基础操作(360 分钟) 1、 并行数据集合(Parallelized Collections) 2、 弹性分布式数据集 RDD(Resilient Distributed Dataset) 3、 RDDs 两种类型操作 4、 actions 5、 transformations 6、 count() 7、 first() 8、 filter() 9、 map() 10、 flatMap() 11、 mapPartitions() 12、 union() 13、 reduce() 14、 collect() 15、 take() 16、 foreach() 17、 saveAsTextFile 18、 Spark 缓存 cache() 19、 导入 Java 库 20、 Spark Key-Value 操作 21、 reduceByKey 22、 groupByKey 23、 sortByKey 24、 countByKey 25、 join() 26、 repartition() 27、 shuffle 操作 28、 RDD 持久化操作 29、 spark-submit 运行程序 30、 Spark 共享变量(Shared Variables) 31、 Broadcast 变量(Broadcast Variables) 32、 Accumulators 变量 33、 编程实战:Spark 基础操作编程实战 | |
第23天 | 第58个主题:数据挖掘及决策,分析应用,策略验证 (介绍数据挖掘及 决策,分析应用,策略验证)(180分钟) 1、 什么是数据挖掘 2、 数据挖掘的应用领域 a) 模式识别 b) 文本挖掘 c) 图片挖掘 d) 视频挖掘 3、 人工智能、机器学习、深度学习 4、 数据可视化挖掘 5、 数据挖掘模型 6、 数据挖掘模型评估 7、 数据挖掘目标 8、 数据挖掘数据质量 9、 数据挖掘的 9 大定律 10、数据挖掘发展趋势 11、数据挖掘及决策,分析应用,策略验证 12、商务智能
第59个主题:大数据决策分析(深入理解大数据可视化的重要意义及技 巧)(180 分钟) 1、 决策分析 2、 商务智能 3、 什么决策? 4、 商业信息 5、 知识和洞察力 6、 决策的原则 7、 决策的依据 8、 科学化决策 9、 决策支持体系 10、传统商务智能的五大关键技术 11、 大数据商务智能 12、 报告撰写 13、 报表编制 14、 决策分析算法剖析 15、 大数据可视化技术介绍 16、 大数据可视化 17、 大数据可视化技巧 18、 大数据化可视化工具 | |
第24天 | 第60个主题:人工智能(AI)概述(介绍人工智能(AI)的基础知识、 概念、发展历史以及将来趋势)(60 分钟) 1、 人工智能(AI)时代 2、 人工智能应用 a) 计算机视觉(Computer Vision) b) 自动驾驶(Autonomous Vehicle) c) 推荐系统(Recommendation System) d) 自然语言处理(Natural Language Processing) e) 个性化医疗(Personalized Medicine) f) 机器人(Robot) g) 无人直升机 h) 助理还是杀手?(Assistant or Killer?) i) 金融(Finance)智慧金融 3、 什么是人工智能(Artificial Intelligence) 4、 人工智能历史和算法概述 5、 人工智能诞生标志:达特茅斯会议 6、 致力于使用概率方法 AI 7、 符号主义学派的创始人 8、 人工智能简史 9、 成功人工智能经典案例 10、 案例研讨:手写体数字图片识别 11、 案例研讨:用 CNN 进行图片物体识别 12、 案例研讨:宝马 BMW 智能汽车装配生产线 13、 案例研讨:可口可乐 Coca-cola 全自动化生产线 第61个主题:深度学习算法模型(介绍深度学习的基础知识、概念、发展历史以及将来趋势)(60 分钟) 1、 深度学习 AutoDL 介绍 2、 深度学习概念 3、 深度学习特征 4、 深度学习基本思想 5、 浅层学习与深度学习 6、 深度学习与神经网络 7、 深度学习的训练过程 8、 深度学习的常用模型 9、 深度学习的应用 10、 深度学习算法模型应用领域 11、 深度学习算法模型优劣势剖析 12、 AutoDL 的设计架构 13、 AutoDL 在增强学习中的使用 14、 AutoDL 正则化是防止过拟合的关键 15、 AutoDL 深度神经网络设计的应用 16、 AutoDL 自动 GAN 架构 第62个主题: 神经网络算法模型概述(介绍人工神经网络的基础知识 概念、发展历史以及将来趋势)(60 分钟) 1、 神经网络介绍 2、 神经网络概念 3、 神经网络发展历史 4、 神经网络的别名 5、 神经网络研究的主要内容 6、 神经网络基本构成 7、 神经网络模拟人的智能行为的四个方面 8、 神经网络的特点 9、 学习能力 10、 适应性问题 11、 神经网络基本网络模型 12、 单层网络 13、 多层网络 14、 循环网络 15、 基本网络结构特点 16、 典型训练算法 17、 运行方式 18、 典型问题解决方法 19、 感知机 20、 线性神经网络 21、 BP 神经网络 22、 RBF 网络 23、 竞争网络 24、 反馈神经网络 25、 随机神经网络 26、 遗传算法 27、 PSO 与神经网络优化 28、 神经网络算法模型应用领域 29、 神经网络算法模型优缺剖析 第63个主题:基本DNN模型(介绍 DNN 的基础知识、概念、发展历史以及将来趋势)(60 分钟) 1、 深度学习概要 2、 什么是深度学习&与机器学习的异同 3、 多层感知器模型 Multi-Layer Perceptron–MLP 4、 神经元权重和激活 NeuronsWeight Activation 5、 神经元网络 Neuron Networks 6、 训练网络 Training Networks 7、 Back-propagation算法和计算图 8、 多种自适应学习率算法 Adaptive Learning Rate 9、 用 Keras 搭建 MLP 10、 载入数据 11、 定义-编译-训练-测试模型 12、 案例实践与练习:手写体数字图片识别 第64个主题:卷积神经网络 CNN(介绍总面积神经网络 CNN 的基础知识概念、发展历史以及将来趋势)(60 分钟) 1、 卷积神经网络 Convolutional Neural Network 2、 CNN 原理和构造: 3、 核 Filter 和卷积运算 Convolutional Layer 4、 特征图 Feature Maps 5、 池化层 Pooling 6、 全连接层 Full Connected Layer 7、 Dropout 和 Batch Normalization 8、 CNN 最佳实践 9、 CNN 实践 10、 项目:用 CNN进行手写体识别 11、 练习:在 CNN图像识别中通过Image Augmentation 技术提升模型性能 12、 项目:用 CNN 进行图片物体识别 13、 项目:用 CNN 电影评论情绪预测 第65个主题:循环神经网络 RNN(介绍循环神经网络 Recurrent Neural Networks 的基础知识、概念、发展历史以及将来趋势)(60 分钟) 1、 循环神经网络 Recurrent Neural Networks 2、 RNN 原理:基本 RNN 3、 处理序列(Sequence)数据的神经网络 4、 循环神经网 RNN 架构 5、 RNN 训练:如何在训练中获得稳定的梯度下降 6、 RNN 网络演化历史:RNN,LSTM,GRU 结构比较和分析 | |
第25天 | 第66个主题:深度学习开源框架 Keras 部署(介绍深度学习开源框架 Keras)(120 分钟) 1、 开源深度学习框架介绍 2、 Keras 深度学习框架 3、 Keras 安装部署 4、 案例:Keras 使用介绍 5、 Keras 使用调试
第67个主题: 深度学习开源框架 Keras(介绍深度学习开源框 Keras) (240 分钟) 1、 Keras 介绍 2、 Keras 部署 3、 Sequential 顺序模型指引 4、 函数式 API 指引 5、 FAQ 常见问题解答 6、 模型 7、 关于 Keras 模型 8、 Sequential 顺序模型 API 9、 函数式 API 10、 Layers 11、 关于 Keras 网络层 12、 核心网络层 13、 卷积层 Convolutional 14、 池化层 Pooling 15、 局部连接层 Locally-connected 16、 循环层 Recurrent 17、 嵌入层 Embedding 18、 融合层 Merge 19、 高级激活层 Advanced Activations 20、 标准化层 Normalization 21、 噪声层 Noise 22、 层封装器 wrappers 23、 编写你自己的层 24、 数据预处理 25、 序列预处理 26、 文本预处理 27、 图像预处理 28、 损失函数 Losses 29、 评估标准 Metrics 30、 优化器 Optimizers 31、 激活函数 Activations 32、 回调函数 Callbacks 33、 常用数据集 Datasets 34、 预训练模型 Applications 35、 后端 Backend 36、 初始化 Initializers 37、 正则化 Regularizers 38、 约束 Constraints 39、 可视化 Visualization 40、 Scikit-learn API | |
第26天 | 第68个主题:深度学习开源框架 TensorFlow 部署(介绍深度学习开源框 架 TensorFlow)(360 分钟) 1、 为什么需要 TensorFlow 2、 什么是 TensorFlow 3、 TensorFlow 概述 4、 TensorFlow 的特征 5、 什么是数据流图(Data Flow Graph)? 6、 TensorFlow 的应用场景介绍 7、 人工智能 8、 深度学习 9、 神经网络 10、 卷积神经网络 11、 递归神经网络 12、 TensorFlow 概念 a) 计算图 b) 张量 c) 变量 d) 取回 e) 供给 13、 TensorFlow 基础架构 14、 TensorFlow 运行机制 |