课程内容
课程介绍
随着大数据时代的快速到来,以及大数据在生产生活中迅速应用,大数据领域如雨后春笋般的出现大量的新技术,如Hadoop、Spark等技术,大数据领域的数据处理、统计分析、数据挖掘、机器学习、人工智能、大数据应用开发等各种不同类型的计算操作,应用范围广泛、前景非常广阔。本课程是尹老师多年大数据工作经验的总结和归纳,从实际业务案例为入口,使学员从理论层到实操层面系统的学习数据处理技术、数据挖掘、数据创新应用,使学员深入理解大数据分析工具。通过本课程的学习,学员即可以正确的分析企业的数据,为管理者、决策层提供数据支撑。
课程目标
1、 大数据的基础内容;大数据生态圈各组件介绍,包括应用场景、架构原理等;
2、 大数据平台开发实战,侧重平台开发工作,主要包括Hadoop、HDFS使用操作、MapReduce开发、YARN原理和应用、Hive数据仓库开发、HBase数据库开发;
3、 商业数据分析方法和案例;
课程方式
以课堂讲解、演示、案例分析为主,辅以互动研讨、现场答疑、学以致用。
课程对象
1、 对大数据、分布式存储、分析等感兴趣的朋友;
2、 Java、PHP、C等任意一门编程语言的开发者;
3、 大型网站、电商网站等运维人员;
4、 云计算、大数据从业者;
5、 系统架构师、系统分析师、高级程序员、资深开发人员;
6、 牵涉到大数据处理的数据中心运行、规划、设计负责人;
7、 政府机关,金融保险、移动互联网等大数据单位的负责人;
8、 高校、科研院所大数据研究人员,涉及到大数据与分布式数据处理的人员;
9、 数据仓库管理人员、建模人员,分析和开发人员、系统管理人员、数据库管理人员以及对数据仓库感兴趣的其他人员;
课程时长
2天(6小时/天)
课程大纲
时间 | 内容 | 备注 |
第一天 | 第1个主题: 商业数据分析方法和案例(深入理解商业数据分析方法和案例)(90分钟) 1、 如何实现商业数据的分析 2、 大数据的知识体系 3、 数据分析师需要具备的技能 4、 数据思维体系 5、 数据分析方法论 6、 数据知识体系 a) 统计学 b) 数据仓库 c) 数据湖 d) 数据中台 e) 数据可视化 f) 数据分析 g) 数据挖掘 h) 数据建模 i) 数据分析工具(Excel、SPSS、SAS、Tableau、PowerBI) j) 机器学习 k) 编程语言(Python语言、R语言、Matlab) l) 大数据技术 m) 深度学习 n) 人工智能 o) 行业领域知识 7、 决策分析 8、 商务智能 9、 商业信息 10、 知识和洞察力 11、 科学化决策 12、 决策支持体系 13、 大数据商务智能 14、 报告撰写 15、 数据分析和应用 16、 数据分析的基本任务 17、 数据分析建模过程 a) 定义挖掘目标 b) 数据取样 c) 数据探索 d) 数据预处理 e) 挖掘建模 f) 建立模型 g) 业务理解 h) 模型拟合 i) 训练集 j) 测试集 k) 模型评价 18、 常用的机器学习模型 a) 线性回归 b) 回归(预测)与分类 c) 决策树与随机森林 d) 聚类分析(kmeans) e) 关联规则 f) 时序模式 g) 离群点检测 h) 深度学习 i) 人工智能 j) 神经网络 19、 案例:如何从数据中挖掘出有价值的信息 20、 商业数据分析案例:预测阿里天猫双11销售额 第2个主题: 大数据基础知识概述(深入理解大数据生态体系)(90分钟) 1、 什么是大数据 2、 大数据的特征 3、 大数据应用现状 4、 大数据发展趋势 5、 大数据生态体系介绍 6、 大数据优势 7、 大数据的核心技术 8、 大数据与云计算之间的关系剖析 9、 大数据与虚拟化之间的关系剖析 10、 大数据与供应商剖析 11、 大数据与成本投入的关系剖析 12、 Hadoop是大数据架构的事实标准 13、 什么是Hadoop 14、 Hadoop由来介绍 15、 Google四篇论文的剖析 a) GFS、MapReduce、BigTable、Chubby 16、 Hadoop的四大核心组件 17、 Hadoop相关概念 a) 块、副本 18、 实例分享:马云预测经济危机案例剖析 第3个主题: Hadoop生态体系(系统理解Hadoop生态体系)(30分钟) 1、 Hadoop的四大核心组件 2、 Hadoop生态体系介绍 3、 PigHadoop客户端 4、 HBase大数据分布式NoSQL列式数据库 5、 Hive大数据的数据仓库 6、 Zookeeper分布式协调器 7、 Sqoop大数据导入导出工具 8、 Avro大数据系列化工具 9、 Chukwa大数据分布式数据收集系统 10、 Cassandra大数据分布式NoSQL列式数据库 11、 Ambari提供监控、管理Hadoop资源的工具 12、 MahoutHadoop数据挖掘算法库 13、 Spark大数据内存计算框架 14、 Tez通用的数据流框架 15、 Apache与CDH大数据平台方案区别 16、 Hadoop1.0与Hadoop2.0区别 第4个主题: Hadoop集群(深入理解Hadoop集群并部署Hadoop集群)(30分钟) 1、 Hadoop工作原理及架构 2、 Hadoop部署规划 3、 Hadoop部署优化 4、 Hadoop安全管理 5、 Hadoop HA部署介绍 6、 Hadoop集群的监控 7、 动态增加Hadoop的Slave节点 8、 Hadoop集群的运维 9、 案例:基于共享存储的Hadoop集群部署案例分享 10、 案例:基于云计算集群的Hadoop集群部署案例分享 第5个主题: HDFS大数据分布式文件系统(深入理解大数据分布式文件系统的原理与机制)(120分钟) 1、 HDFS架构剖析 2、 NameNode、DataNode、SecondaryNameNode介绍 3、 NodeName高可靠性最佳实践 4、 DataNode中Block划分的原理和具体存储方式 5、 CLI操作HDFS 6、 Java操作HDFS 7、 RESTful操作HDFS 8、 动态修改Hadoop的Replication数目 9、 Hadoop序列化 10、 Hadoop流压缩 11、 Hadoop RPC 12、 SequenceFile与MapFile 13、 Hadoop Avro 14、 案例剖析:HDFS与RAID之间的关系 15、 案例剖析:HDFS使用操作 |
|
时间 | 内容 | 备注 |
第二天 | 第6个主题: MapReduce大数据批处理技术开发(深入理解MapReduce原理及培训开发MapReduce程序能力)(120分钟) 1、 MapReduce算法剖析 2、 MapReduce数据输入和输出 3、 MapReduce编程思想 4、 MapReduce命令操作 5、 MapReduce运行过程解析 6、 Hadoop的调度器介绍 7、 Combiner的使用原则 8、 Partitioner的使用最佳实践 9、 MapReduce排序算法剖析 10、 用Streaming写MapReduce程序 11、 MapReduce 程序的单元测试程序; 12、 Hadoop API 的深度钻研; 13、 实践性的开发窍门和技术; 14、 Partitioners 和 Reducers; 15、 子查询、触发器等常见性能问题分析及优化; 16、 MapReduce 作业中实现不同数据集的连接操作; 17、 案例:Java语言编写MapReduce程序、运行MapReduce程序、查看运行结果 第7个主题: YARN原理和应用(深入剖析YARN的原理和使用)(30分钟) 1、 YARN介绍 2、 YARN的设计思想 3、 YARN的核心组件 4、 YARN为核心的生态系统 5、 Yarn的HA机制 6、 YARN应用程序编写 7、 ResourceManager深入剖析 8、 ClientRMService与AdminService 9、 NodeManager深入剖析 10、 Container 第8个主题: Zookeeper大数据分布式协调器介绍(深入理解分布式协调器技术原理)(30分钟) 1、 Zookeeper介绍 2、 Paxos算法 3、 Paxos 算法应用场景 4、 Zookeeper的数据模型 5、 Zookeeper的节点 6、 Zookeeper的角色 7、 Zookeeper工作原理 8、 Leader选举 9、 部署ZooKeeper 10、 Shell操作Zookeeper 11、 Java程序操作Zookeeper 12、 Zookeeper典型使用场景 第9个主题: HBase大数据NoSQL数据库开发(深入剖析分布式NoSQL技术及原理和HBase数据库开发)(120分钟) 1、 HBase介绍 2、 HBase的特点 3、 HBase逻辑模型 4、 HBase列族与列 5、 HBase时间戳 6、 行式数据库 vs 列式数据库 7、 HBase物理模型 8、 数据存储结构:LSM 9、 HBase的REST接口 10、 HBase安装部署 11、 HBase Shell 12、 倒排索引 13、 HBase应用场景介绍 14、 开发实践分享:微博 15、 案例:基于HBase开发微博实时大数据系统 16、 HBase Filter 17、 HBase Coprocessor 第10个主题: Hive数据仓库开发(深入剖析Hive数据仓库开发与应用案例)(60分钟) 1、 Hive简介 2、 Hive的组件与体系架构 3、 Hive架构 4、 Hive vs RDBMS 5、 Hive的高可用部署方案 6、 Hive Data Types 7、 Hive安装模式 8、 Hive安装部署 9、 Hive Shell 10、 Hive API开发演示 11、 Hive中UDF和UDAF 12、 Hive数据分析 13、 Java访问Hive数据 14、 案例:Hive交易数据统计分析 |
|