时间安排 | 模块 | 培训大纲 |
第一天
|
大数据平台的发展 | 大数据处理技术的发展 MPP数据处理架构和应用场景 大数据数据处理技术和应用场景 逻辑数据架构特点和应用场景 企业级统一数据平台架构介绍 未来企业级数据架构的发展和规划 |
大数据的整体技术架构 | 开源大数据技术架构 开源大数据常用组件之间的依赖关系 离线计算框架介绍 —Mapreduce、Hive、Tez、Presto、Kylin 实时查询框架介绍 —NoSQL、Hbase 实时计算框架介绍 —Kafka、Strom、Spark Streaming 内存计算框架介绍 —Spark、SparkSQL、SparkMllib、SparkR 前沿大数据技术介绍 —Flink、Drill、Druid、KUDU等 海量日志快速检索架构 —ELK(Elasticsearch、Logstash、Kibana)等 | |
大数据应用场景 | 离线计算框架介绍 流式计算框架介绍 内存计算框架介绍 内存流式计算介绍 海量非结构化数据准实时查询架构介绍 | |
开源大数据平台常用、核心技术介绍 | HDFS架构和原理 HDFS读写原理 HDFS的应用场景介绍 MapReduce架构和原理 MapReduce计算过程详解 Yarn的架构和原理 Yarn的资源调度详解 Yarn的应用场景 Hive架构和原理 Hive数据存储介绍 Hive的应用场景介绍 Hbase架构和原理 Hbase的数据存储模型介绍 Hbase的应用场景介绍 Sqoop、Flume架构和原理 Sqoop、Flume的应用场景 Spark架构和原理 Spark应用场景介绍 Flink应用架构实战 | |
第二天 |
大数据平台建设过程讲解
| 数据接入大数据平台 —离线数据接入 —实时的数据接入 数据处理过程 —数据的ETL —数据分层(ODS、DW和DM等) —数据建模 —数据校验 数据应用 —数据离线应用 —数据实时应用 —数据实验室 数据展示工具(BI工具) |
数据抽取、采集和整合
| RDBMS导入导出到hadoop数据仓库 Sqoop工具介绍和使用 CDC工具介绍和使用(Oracle OGG和Mysql Binlog) 实时非结构化数据的采集 从原始搜索数据集中抽取、集成数据,整理后形成规范的数据仓库 基于Hadoop数据仓库的数据分层(ODS、DW、DWS/B、DM、ST) 数据仓库不同层之间的数据交互和ETL | |
数据湖建设ELT | 数据湖定义 数据湖里面数据存储格式 数据湖实现的步骤 HDFS、Hive和Hbase等实现数据湖 数据湖分区(LCRD) LCRD详解 某大型银行基于Hadoop的数据湖实战解析 | |
第三天 |
数据分层 | 数据体系建设 数据体系规划 数据分层思想 贴源层数据建设 统一数仓建设 标签数据层建设 应用数据层建设 某银行数据体系建设案例分享 |
Spark core | Spark的编程模型 Spark编程模型解析 Partition实现机制 RDD的特点、操作、依赖关系 Transformation RDD详解 Action RDD详解 Spark的累加器详解 Spark的广播变量详解 Spark容错机制 lineage和checkpoint详解 Spark的运行方式 Spark的Shuffle原理详解 —Sort-Based原理 —Hash-Based原理 Spark3.0的新特性 Spark DataFrame和DateSet介绍 | |
Spark SQL | Spark SQL原理 Spark SQL的Catalyst优化器 Spark SQL内核 Spark SQL和Hive DataFrame和DataSet架构 Fataframe、DataSet和Spark SQL的比较 SparkSQL parquet格式实战 Spark SQL的实例和编程 Spark SQL的实例操作demo Spark SQL的编程 | |
PySpark数据分析案例实战 | 数据概况分析 • 数据概况 • 数据清洗 单变量分析 • 观察样本0、1的平衡性 • 观察均值大小 • 可视化 相关性分析和可视化 逻辑回归模型的建立和评估 • 模型建立 • 模型评估 • 模型优化 业务价值 模型管理、发布和调用 | |
半天 | 流批一体大数据架构 | 离线数仓技术架构和技术栈介绍 实时数仓架构架构和技术栈介绍 流批一体架构的优点 流批一体架构解决方案 流批一体架构技术栈详解 流批一体数据架构的设计 流批一体数据摄取、整合、处理和应用的解决方案 流批一体平台架构在互联的实战 美团流批一体平台架构分享 |
案例介绍 | 互联网大数据架构分享 金融大数据平台架构分享 电信大数据平台架构分享 数据中台案例分享 |