课程大纲
模块 | 大纲 | 实战 |
大数据的整体技术架构 | ● 开源大数据技术架构 ● 开源大数据常用组件之间的依赖关系 ● 大数据生态系统介绍 ● 离线计算框架介绍 —Mapreduce、Hive、Tez、Presto、Kylin ● 实时查询框架介绍 —NoSQL、Hbase ● 实时计算框架介绍 —Kafka、Strom、Spark Streaming ● 内存计算框架介绍 —Spark、SparkSQL、SparkMllib、SparkR ● 前沿大数据技术介绍 —Flink、Drill、Druid、KUDU等 ● 海量日志快速检索架构 —ELK(Elasticsearch、Logstash、Kibana)等 | |
大数据核心技术介绍 | ● 分布式存储HDFS架构介绍 ● HDFS的应用场景介绍 ● 分布式资源管理Yarn介绍 ● Yarn的应用场景介绍 ● 分布式计算MapReduce介绍 ● Hive分析工具介绍 ● NoSQL-Hbase介绍 ● Spark分布式计算介绍 | |
数据分析技术介绍和比较(SQL on Hadoop) | ● M-OLAP分析应用场景介绍 ● Kylin实现M-OALP介绍 ● R-OLAP应用分析场景介绍 ● SparkSQL应用场景介绍 ● Impala应用场景介绍 ● Presto应用场景介绍 ● sparkSQL、Impala和Presto之间的比较 ● Elasticsearch应用场景介绍 ● ELK应用案例介绍和分享 | |
数据整合集成 | ● 数据仓库典型架构介绍 —ODS层 —DW层 —DM层 ● 数据安全控制 ● ETL任务调度 ● 元数据管理 ● 数据湖概念介绍 ● 数据湖分区介绍 —着落区 —处理区 —表达去 —探索区 ● 数据湖实现的技术介绍 ● 数据湖与数据仓库之间的关系 | |
大数据平台的数据架构 | ● 数据接入大数据平台 —离线数据接入 —实时的数据接入 ● 数据处理过程 —数据的ETL —数据分层(ODS、DW和DM等) —数据建模 —数据校验 ● 数据应用 —数据离线应用 —数据实时应用 —数据实验室 —数据展示工具(BI工具) | |
数据抽取、采集和整合
| ● RDBMS导入导出到hadoop数据仓库 ● Sqoop工具介绍和使用 ● DataX工具介绍 ● CDC工具介绍(Oracle OGG和Mysql Binlog) ● Hadoop数据导出到RDBMS介绍和注意点 ● 实时非结构化数据的采集 ● 从原始搜索数据集中抽取、集成数据,整理后形成规范的数据仓库 ● 基于Hadoop数据仓库的数据分层(ODS、DW、DWS/B、DM、ST) ● 数据仓库不同层之间的数据交互和ETL | |
集群的规划
| ● 硬件的选择 ● 容量的评估 ● 节点的设置 ● 运维工具的推荐 ● 企业级大数据平台架构介绍 ● 数据的规划 ● 技术规划和选型 | |
基于大数据平台数据仓库案例分析
| ● 互联网基于大数据的数据仓库建设介绍 ● 金融基于大数据平台建设数据仓库案例分享 ● 某大型商业银行大数据平台架构解析 ● 证交所大数据平台案例分享 |