时间安排 | 模块 | 培训大纲 |
第一天
|
大数据平台的发展 | 大数据处理技术的发展 MPP数据处理架构和应用场景 大数据数据处理技术和应用场景 逻辑数据架构特点和应用场景 企业级统一数据平台架构介绍 未来企业级数据架构的发展和规划 |
大数据的整体技术架构 | 开源大数据技术架构 开源大数据常用组件之间的依赖关系 离线计算框架介绍 —Mapreduce、Hive、Tez、Presto、Kylin 实时查询框架介绍 —NoSQL、Hbase 实时计算框架介绍 —Kafka、Strom、Spark Streaming 内存计算框架介绍 —Spark、SparkSQL、SparkMllib、SparkR 前沿大数据技术介绍 —Flink、Drill、Druid、KUDU等 海量日志快速检索架构 —ELK(Elasticsearch、Logstash、Kibana)等 | |
大数据应用场景 | 离线计算框架介绍 流式计算框架介绍 内存计算框架介绍 内存流式计算介绍 海量非结构化数据准实时查询架构介绍 | |
Hadoop常用商业版平台的比较 | Apache 大数据平台介绍 CDH大数据平台介绍 HDP大数据平台介绍 国内常用大数据平台介绍 CDH、HDP大数据平台比较 企业级大数据平台选择建议 | |
开源大数据平台常用、核心技术介绍 | HDFS架构和原理 HDFS读写原理 HDFS的应用场景介绍 MapReduce架构和原理 MapReduce计算过程详解 Yarn的架构和原理 Yarn的资源调度详解 Yarn的应用场景 Hive架构和原理 Hive数据存储介绍 Hive的应用场景介绍 Hbase架构和原理 Hbase的数据存储模型介绍 Hbase的应用场景介绍 Sqoop、Flume架构和原理 Sqoop、Flume的应用场景 Spark架构和原理 Spark应用场景介绍 Flink应用架构实战 | |
第二天 |
大数据平台建设过程讲解
| 数据接入大数据平台 —离线数据接入 —实时的数据接入 数据处理过程 —数据的ETL —数据分层(ODS、DW和DM等) —数据建模 —数据校验 数据应用 —数据离线应用 —数据实时应用 —数据实验室 数据展示工具(BI工具) |
数据抽取、采集和整合
| RDBMS导入导出到hadoop数据仓库 Sqoop工具介绍和使用 CDC工具介绍和使用(Oracle OGG和Mysql Binlog) 实时非结构化数据的采集 从原始搜索数据集中抽取、集成数据,整理后形成规范的数据仓库 基于Hadoop数据仓库的数据分层(ODS、DW、DWS/B、DM、ST) 数据仓库不同层之间的数据交互和ETL | |
数据湖建设和ELT | 数据湖定义 数据湖里面数据存储格式 数据湖实现的步骤 HDFS、Hive和Hbase等实现数据湖 数据湖分区(LCRD) LCRD详解 某大型银行基于Hadoop的数据湖实战解析 | |
大数据平台安全介绍 | Kerberos原理介绍 Hadoop与Kerberos集成 Sentry、Ranger工具介绍 大数据平台资源安全控制 HDFS安全控制实践 Hive安全控制实践 Hbase安全控制实践 日志审计实战 | |
案例介绍 | 互联网大数据架构分享 金融大数据平台架构分享 电信大数据平台架构分享 数据中台案例分享 | |
数据治理范围 | 数据治理范围 u大数据平台数据建设中存在的问题 u数据治理面临的挑战 u数据的多元化 u数据的复杂性 u数据的完整性 u数据生命周期管理 u统一元数据管理 u数据集成方法 u数据安全 u数据湖架构 u基于大数据平台的数据建模 uRMDBS数据的增量实时同步采集 | |
数据质量管理
| u数据质量管理的范围 u数据质量评估的维度 u数据质量的维护管理 u数据质量的改进管理 u数据质量管理模型 u数据质量管理的监控 u案例演示 |