课程目标
1、 本课程基于大数据体系构建数据仓库,重点内容包括数据仓库基础理论、数据集成、数据仓库维度模型建设、数据质量管理、数据生产链路监控(数据血缘关系管理)以及数据仓库主题模型设计等知识点;
2、 本课程让学员掌握基于大数据生态的数据仓库建设、大数据生态体系技术选型,能够应用建模技术、大数据技术构建数据仓库;
3、 学会使用合理的方法管控数据质量和元数据管理;
4、 提供高效的分析处理海量数据和流式数据实时分析的仓库类型;
5、 本课程使学员掌握大数据的数据仓库建设、设计、建模、管理;
6、 分享实际项目数据仓库建设案例;
课程对象
1、 大数据的数据仓库管理人员、建模人员;
2、 大数据的数据管理人员、数据库管理人员以及对数据仓库感兴趣的相关人员;
3、 对数据分析、数据挖掘等感兴趣的朋友;
4、 大型网站、电商网站等运维人员;
5、 云计算、大数据从业者;
6、 系统架构师、系统分析师、高级程序员、资深开发人员;
7、 牵涉到数据处理的数据中心运行、规划、设计负责人;
8、 政府机关,金融保险、移动互联网等大数据单位的负责人;
9、 高校、科研院所数据研究人员;
培训方式
以课堂讲解、演示、案例分析为主,辅以互动研讨、现场答疑、学以致用。
课程体系
课程内容是讲师多年经验的总结,通过该课程可以提升学员大数据运营方法和实践设计理论,提升数据仓库开发经验。并且课程理论与实践紧密结合,避免了空洞乏味的技术传授。
课程大纲
时间 | 内容 |
第一天 |
第1个主题: 基于大数据体系构建数据仓库(介绍基于大数据体系构建数据仓库)(30分钟) 1、 数据知识体系 2、 大数据运营方法和实践 3、 数据仓库诞生的历史背景 4、 大数据时代数据仓库的演变 5、 大数据是一套全新的思维体系 a) 纵向、横向扩容 b) 全量分析 6、 大数据是一套全新的技术体系 7、 大数据思维与传统软件思维的区别 8、 大数据的数据仓库与传统数据仓库的区别 a) 硬件成本、软件技术积累 9、 数据知识体系 a) 数据采集 b) 数据ETL c) 数据挖掘 d) 数据可视化 e) 商务智能 f) 业务创新应用 10、 Hive大数据的数据仓库工具介绍 11、 Kylin大数据的数据仓库系统介绍 12、 Tableau大数据的数据仓库可视化分析工具
第2个主题: 如何构建大数据的数据仓库系统(介绍如何基于大数据构建数据仓库)(30分钟) 1、 基于大数据的数据仓库建设思路、方法论 2、 基于大数据的数据仓库体系结构 3、 基于大数据的数据仓库系统设计 4、 基于大数据的数据仓库架构设计 5、 大数据的数据仓库建设方案 6、 大数据生态体系技术选型 7、 大数据技术构建数据仓库 8、 大数据的数据仓库运维 9、 大数据复本机制 10、 大数据分布式容错 11、 数据安全 12、 数据加密 13、 数据压缩 14、 大数据的价值:创新应用 15、 机器学习 16、 可视化
第3个主题: 大数据的数据仓库实现技术(介绍大数据的数据仓库实现技术)(30分钟) 1、 实时数据收集 2、 结构化数据采集Sqoop 3、 日志数据采集Flume 4、 实时数据采集Kafka 5、 网络数据采集爬虫 6、 数据分析处理Spark、MapReduce、Kylin、Flink 7、 Job程序 8、 OLAP 9、 SQL查询 10、 数据处理、分析、可视化工具Tableau、echarts 11、 数据处理自动化 12、 数据探知 13、 挖掘报告 14、 NoSQL数据库使用HBase、KV分布式 15、 当前主流开源的大数据工具:Kylin、Kudu、Impala
第4个主题: 数据仓库基础理论(介绍数据仓库基础理论、数据仓库的特征以及相关概念)(30分钟) 1、 数据仓库的来源及定义 2、 数据仓库的应用领域 3、 数据仓库特征 4、 数据集中管理 5、 数据仓库基础理论 6、 数据仓库架构以及演变 7、 数据仓库的建设 8、 商业智能介绍 9、 操作型数据存储 10、 数据集市:按部门、按项目划分数据仓库 11、 联邦数据仓库
第5个主题: 数据集成知识(介绍数据仓库数据集成知识)(30分钟) 1、 数据集成架构 2、 ETL 3、 数据源 4、 数据采集 5、 数据集成 6、 数据抽取 7、 数据转换 8、 数据加载 9、 ETL调度策略 10、 缓慢变化维度和时间戳的处理 11、 ETL高级技巧 12、 数据集成案例分析
第6个主题: 数据仓库维度模型建设(介绍数据仓库维度模型建设)(30分钟) 1、 数据仓库维度模型建设 2、 数据仓库设计原则与模型搭建 3、 事实表与维度表的设计 4、 分层设计 5、 数据仓库建模 6、 星型模型 7、 雪花型模型 8、 星系模型 9、 逻辑设计与物理设计 10、 数据建模技术应用 11、 数据仓库设计的常用方法 12、 数据仓库设计技巧总结 13、 数据仓库分片 14、 数据仓库索引 15、 数据仓库粒度 16、 数据仓库案例分析
第7个主题: 数据仓库主题模型设计(介绍数据仓库的数据立方体)(30分钟) 1、 数据仓库主题模型设计 2、 时空交换 3、 CAP理论 4、 BASE思想 5、 OLAP模型设计 6、 OLAP的数据结构和相关元素 7、 OLAP多维分析的操作方法 8、 ROLAP与多维数据库 9、 OLAP与OLTP的区别 10、 多维数据库与数据仓库的关系 11、 数据立方体Cube 12、 下钻、上卷、旋转 13、 OLAP模型搭建(多维模型) 14、 确定维度、量度与事实的关系 15、 OLAP的应用场景 16、 决策支持技术 17、 企业OLAP模型设计案例剖析
第8个主题: 数据质量管理(介绍数据质量管理,使用合理的方法管控数据质量和元数据管理)(30分钟) 1、 数据质量管理 2、 数据质量管理诞生的背景 3、 数据质量管理的发展现状与趋势 4、 企业数据质量问题案例分析 5、 数据治理的目标与概念 6、 数据质量的定义与度量 7、 数据质量管理的范围与过程 8、 数据管理成熟度(DMM)模型 9、 数据管理战略 10、 数据管理组织 11、 数据质量规划 12、 数据质量评估 13、 数据治理与数据质量整体解决方案 14、 数据治理架构及其标准 15、 主数据的建设与管理 16、 数据库设计的范式 17、 元数据管理 18、 数据生命周期管理 19、 数据清洗转换加载(ETL) 20、 开发运维中的数据管理 21、 数据集成 22、 数据质量管理软件与工具
第9个主题: 数据可视化技术介绍(深入剖析数据可视化的重要意义及技巧)(30分钟) 1、 数据可视化 2、 数据可视化技巧 3、 数据化可视化工具 4、 散点图 5、 直方图 6、 经验分布函数 7、 QQ图 8、 茎叶图 9、 离群点检测 10、 箱型图检验离群值 11、 盖帽法 12、 课堂实操:数据可视化应用案例剖析
第10个主题: 数据仓库前端展现(介绍数据仓库前端展现形式)(30分钟) 1、 多维分析报表 2、 报表设计 3、 报表开发 4、 报表分发和定制 5、 报表权限管理 6、 报表集成
第11个主题: 分享实际项目数据仓库建设案例(分享实际项目数据仓库建设案例)(30分钟) 1、 阿里数据仓库建设案例 2、 阿里DT理念 3、 阿里数据仓库精准推荐架构图 4、 讲师公司数据仓库建设案例
第12个主题: 大数据的数据仓库工具Hive介绍(介绍Hadoop原生的大数据的数据仓库工具)(30分钟) 1、 Hive软件介绍 2、 Hive实现原理 3、 实操:Hive软件使用
第13个主题: 大数据的数据仓库工具Kylin介绍(介绍当前主流大数据的数据仓库工具Kylin)(30分钟) 1、 Kylin软件介绍 2、 Kylin软件使用 3、 实操:Kylin SQL语句的使用 |