课程简介
随着大数据时代的快速到来,以及大数据在生产生活中迅速应用,数据的重要性突现,数据分析与数据挖掘等技术已经被越来越多的企业所重视和应用。数据分析与数据挖掘技术涵盖了数据采集、数据处理、统计分析、数据挖掘、机器学习、人工智能、大数据等各种不同技术与内容,涉及内容广泛,应用价值高,前景非常广阔。本课程是尹老师多年数据分析、数据挖掘工作经验的总结和归纳,从实际业务案例为入口,使学员从理论层到实操层面系统的学习数据分析技术,使学员深入理解数据分析。通过本课程的学习,学员即可以正确的分析企业的数据,为管理者、决策层提供数据支撑。
本课程重点讲解的数据分析方法、数据挖掘基础知识、数据建模方法和应用、机器学习算法、数据可视化方法、数据分析工具,并通过Python数据分析工具完成数据分析,理念与动手实践相结合,让学员通过实践深入理解数据分析与数据挖掘。
课程目标
1. 介绍数据分析基础及理论、数据挖掘基础和理论、算法、常用工具,在工作中如何应用数据分析;
2. 介绍数据分析建模、数据挖掘建模的方法和技巧;
3. 介绍Python数据分析应用、 数据分析图表;
4. 介绍统计分析基础和理论知识,包括概率统计的概念、术语和基本统计的算法等;
5. 使学员具备分析企业业务数据的能力,提高分析数据、发现问题的能力,提高工作效率;
6. 使用Python数据分析工具实现数据挖掘与数据分析与建模;
7. 使学员具备数据分析与建模为企业管理者制定战略决策提供数据依据;
8. 使学员深入理解数据分析与数据模型的概念、技术、思维模式;
9. 使学员具备数据收集、数据挖掘、信息提取的能力;
10. 介绍数据可视化,使学员具备利用图形辅助思考的能力;
课程对象
1. 即将投身于大数据、数据分析、数据挖掘领域的企业或者个人;
2. 本课程适合于想通过数据化决策制定企业战略的决策者;
3. 适合于经常需要汇报工作的管理者;
4. 对数据可视化分析、数据可视化展现等感兴趣的人士;
5. 对数据分析、数据挖掘算法等感兴趣的人士;
6. 大型集团公司、大型网站、电商网站等数据挖掘、数据分析人员;
7. 云计算、大数据从业者;
8. 系统架构师、系统分析师、高级程序员、资深开发人员;
9. 牵涉到大数据的数据中心运维、规划、设计负责人;
10. 政府机关,金融保险、移动互联网、能源行业等大数据相关人员;
11. 高校、科研院所统计分析研究员,涉及到数据处理的人员;
课程形式
以课堂讲解、演示、案例分析为主,辅以互动研讨、现场答疑、学以致用。
课程体系
课程内容是讲师多年经验的总结,通过该课程可以提升学员分布式架构设计理论,提升分布式开发经验。并且课程理论与实践紧密结合,避免了空洞乏味的技术传授。
课程大纲
时间 | 内容 |
第一天 | 第1个主题: 为什么要研发分布式?(深入分析分布式技术研发在市场趋势和企业实际需求两方面的区别)(20分钟) 1、 市场趋势 a) 互联网快速普及 b) 5G应用 c) 大数据时代数据蕴含价值 d) 人工智能时代需要极高的算力 e) 短视频时代需要分布式存储 f) 大数据、短视频等需要精准推荐 2、 企业实际需求 a) 企业需要利用数据创新 b) 企业需要利用数据创造价值 c) 企业需要利用数据增加销售额 d) 企业需要利用数据科学制定战略决策 3、 企业应用案例分享 a) 电商分布式架构剖析 b) 社交网络分布式架构剖析 c) 搜索引擎分布式架构剖析
第2个主题: 什么是分布式?(深入理解分布式思想体系与分布式的目标)(20分钟) 1、 分布式思想 2、 分布式目标 3、 存储分布式 4、 计算分布式 5、 内存分布式 6、 算法分布式 7、 分布式的难点 8、 分布式存在的问题:脑裂
第3个主题: 分布式原理剖析(深入剖析分布式软件研发基础原理)(20分钟) 1、 计算机体系结构介绍 2、 跨操作系统调度资源 a) Hadoop SSH无密码登录 3、 心跳机制 4、 RPC机制 5、 RESTful架构 6、 消息中间件 7、 分布式协调器 8、 去物理依赖 9、 CAP理论 10、 BASE思想 11、 RWN理论
第4个主题: 如何研发分布式系统?(本主题强调一个好的分布式系统离不开真实的业务需求)(20分钟) 1、 深入分析企业业务数据特点 2、 TFS思想的应用 3、 事务剖析 4、 分布式事务剖析 5、 分布式系统的职责分离思想 6、 大数据+简单算法 7、 精准小数据+复杂算法
第5个主题: 分布式系统架构设计(介绍分布式系统架构设计需要遵循原则与设计技巧)(30分钟) 1、 CAP理论 2、 BASE思想 3、 RWN理论 4、 日志结构文件系统 5、 分布式系统迁移策略 a) 数据迁移 b) 计算迁移 6、 冷热分离原则 7、 算法优化策略 a) 读取+计算+显示 b) 读取+显示 8、 数据序列化 9、 RESTful架构剖析 10、 分布式框架:Hadoop、HDFS、MapReduce、HBase、Spark、Flink、MySQL Cluster、Kafka 11、 分布式数据库:分布式关系型数据库、分布式NoSQL数据库 12、 分布式平台 13、 分布式开发 14、 分布式应用 15、 中心化分布式架构 16、 去中心化分布式架构 17、 各自的优劣势 18、 应用场景,大数据场景、云计算场景、微服务架构 19、 分布式存储框架HDFS、MySQL Cluster、HBase 20、 分布式计算框架MapReduce、Spark、Flink 21、 分布式内存框架Spark、HBase 22、 分布式算法框架SparkML、TenserFlow 23、 分布式批处理企业应用实践案例分享
第6个主题: 精通Zookeeper(深入剖析Zookeeper分布式协调器技术原理)(60分钟) 1、 分布式存在的问题剖析 2、 大数据分布式协调器 3、 Zookeeper介绍 4、 粗粒度锁服务 5、 Paxos算法 6、 Paxos 算法应用场景 a) master注册服务 b) 配置管理 c) 服务注册 d) 分布式高可靠 7、 Zookeeper的数据模型 8、 Zookeeper的节点 9、 Zookeeper的角色 10、 Zookeeper工作原理 11、 Leader选举 12、 部署ZooKeeper 13、 Shell操作Zookeeper 14、 Java程序操作Zookeeper 15、 Zookeeper典型使用场景
第7个主题: 分布式文件系统框架剖析(深入剖析分布式文件系统在分布式开发中起着决定性的作用)(30分钟) 1、 分布式文件系统设计思想 2、 HDFS分布式文件系统剖析 3、 日志结构文件系统 4、 企业PaaS平台遇到的实际问题分享
第8个主题: 分布式批处理框架剖析(深入剖析分布式批处理框架的重要性,降低分布式开发复杂度)(60分钟) 1、 MapReduce分布式计算框架介绍 2、 MapReduce分布式计算框架思想 3、 Hadoop MapReduce计算迁移源代码分析 4、 分布式架构+普通程序员 5、 分布式运维与配置管理 6、 分布式日志系统
第9个主题: 分布式系统资源调度剖析(重点强调分布式系统中合理的分配与回收资源的重要性)(10分钟) 1、 分布式系统资源介绍 2、 动态增减服务器 a) 自动注册机制 b) 手动退出机制 3、 YARN介绍 4、 YARN的设计思想 5、 YARN的核心组件 6、 YARN为核心的生态系统 7、 Yarn的 HA机制 8、 YARN应用程序编写 9、 ResourceManager深入剖析 10、 ClientRMService与AdminService 11、 NodeManager深入剖析 12、 Container
第10个主题: 分布式内存计算框架(深入理解分布式内存计算框架实现原理以及如何编程)(10分钟) 1、 Scala介绍 2、 Mesos介绍 3、 Spark介绍 4、 Spark架构剖析 5、 Spark RDD计算模型解析 6、 Spark开发分析 7、 Spark的执行机制解析 8、 Spark的调试与任务分配 9、 Spark与MapReduce对比分析 10、 Spark的容错机制剖析 11、 Spark集群部署 12、 Spark Shell 13、 构建与运行Spark应用 14、 Spark RDD操作剖析 15、 Shark基于Spark的综合应用 16、 Spark作业测试解析 17、 Spark的性能调优 18、 Spark生态体系剖析 19、 Spark应用现状 20、 Spark应用优势 21、 Spark应用案例 22、 Spark案例解析
第11个主题: 分布式算法框架(深入剖析分布式算法框架)(10分钟) 1、 分布式算法框架SparkML 2、 Spark ML概述 3、 Spark ML发展历史 4、 Spark ML算法介绍 5、 RDD-based API MLlib 6、 DataFrame-based API for MLlib 7、 Spark ML架构剖析 8、 Spark ML机器学习算法剖析 9、 数据类型 10、 基本统计算法 11、 分类与回归 12、 协同过滤 13、 聚类 14、 降维 15、 特征提取与转换 16、 频繁模式挖掘 17、 评价指标 18、 Spark ML编程 19、 Spark ML APIs介绍 20、 Spark ML机器学习算法应用实战 21、 Spark ML实战案例:数据聚类分析案例剖析
第12个主题: 分布式内存缓存剖析(分布式内存缓存机制剖析)(10分钟) 1、 分布式内存缓存介绍 a) 集中式 b) 分散式 c) 本地式 2、 分布式缓存优缺点分析
第13个主题: 分布式NoSQL数据库架构原理剖析(介绍经典大数据架构模型,并分享分布式内存实现技术)(10分钟) 1、 HBase架构思想 2、 HBase架构思想在Redis集群中的应用 3、 Swift哈希环在Redis集群中的应用 4、 HBase在录音文件存储中的应用
第14个主题: 分布式计算框架Apache Flink(介绍分布式计算框架Apache Flink)(10分钟) 1、 Apache Flink历史与趋势剖析 2、 Apache Flink特性 3、 无界数据集 4、 有界数据集 5、 Data Types & Serialization 6、 Data Sources 7、 Data Sinks 8、 Iterations 9、 Fault Tolerance 10、 Debugging 11、 Apache Flink编程案例实战 12、 Apache Flink架构体系 13、 Flink ML,Flink的机器学习库 14、 Gelly,Flink的图计算库
第15个主题: 分布式实时计算框架(深入剖析分布式实时框架Storm实现原理)(10分钟) 1、 Storm基础知识 2、 Storm集群安装 3、 Storm打包运行测试 4、 Storm基本api介绍 5、 Storm Topology的并发度 6、 Storm消息机制原理讲解 7、 Storm DRPC实战讲解 8、 Storm Transaction原理 9、 Strom Trident编程 10、 Storm案例实战
第16个主题: 协同过滤应用实战(深入剖析通过协同过滤算法实现个性化精准推荐,精准挖掘客户需求)(10分钟) 1、 个性化推荐的理论依据 2、 个性化推荐的价值 3、 个性化推荐能达到的目的 4、 个性化推荐的原则 5、 个性化推荐技术发展史 6、 个性化推荐的相关技术 7、 基于用户的常用推荐算法 8、 基于用户的协同过滤推荐 9、 案例剖析:挖掘客户需求大数据推荐案例 10、 推荐引擎 11、 协同过滤的错误用法案例剖析 |