课程大纲
模块 | 培训大纲 |
大数据平台的发展 | ● 大数据处理技术的发展 ● MPP数据处理架构和应用场景 ● 大数据数据处理技术和应用场景 ● 逻辑数据架构特点和应用场景 ● 企业级统一数据平台架构介绍 ● 未来企业级数据架构的发展和规划 |
大数据的整体技术架构 | ● 开源大数据技术架构 ● 开源大数据常用组件之间的依赖关系 ● 离线计算框架介绍 —Mapreduce、Hive、Tez、Presto、Kylin ● 实时查询框架介绍 —NoSQL、Hbase ● 实时计算框架介绍 —Kafka、Strom、Spark Streaming ● 内存计算框架介绍 —Spark、SparkSQL、SparkMllib、SparkR ● 前沿大数据技术介绍 —Flink、Drill、Druid、KUDU等 ● 海量日志快速检索架构 ● —ELK(Elasticsearch、Logstash、Kibana)等 |
大数据应用场景 | ● 离线计算框架介绍 ● 流式计算框架介绍 ● 内存计算框架介绍 ● 内存流式计算介绍 ● 海量非结构化数据准实时查询架构介绍 |
开源大数据平台常用、核心技术介绍 | ● HDFS架构和原理 ● HDFS读写原理 ● HDFS的应用场景介绍 ● MapReduce架构和原理 ● MapReduce计算过程详解 ● Yarn的架构和原理 ● Yarn的资源调度详解 ● Yarn的应用场景 ● Hive架构和原理 ● Hive数据存储介绍 ● Hive的应用场景介绍 ● Hbase架构和原理 ● Hbase的数据存储模型介绍 ● Hbase的应用场景介绍 ● Sqoop、Flume架构和原理 ● Sqoop、Flume的应用场景 ● Spark架构和原理 ● Spark应用场景介绍 ● Flink应用架构实战 |
大数据平台建设过程讲解
| ● 数据接入大数据平台 —离线数据接入 —实时的数据接入 ● 数据处理过程 —数据的ETL —数据分层(ODS、DW和DM等) —数据建模 —数据校验 ● 数据应用 —数据离线应用 —数据实时应用 —数据实验室 数据展示工具(BI工具) |
数据抽取、采集和整合
| ● RDBMS导入导出到hadoop数据仓库 ● Sqoop工具介绍和使用 ● CDC工具介绍和使用(Oracle OGG和Mysql Binlog) ● 实时非结构化数据的采集 ● 从原始搜索数据集中抽取、集成数据,整理后形成规范的数据仓库 ● 基于Hadoop数据仓库的数据分层(ODS、DW、DWS/B、DM、ST) ● 数据仓库不同层之间的数据交互和ETL |
数据湖建设和ELT | ● 数据湖定义 ● 数据湖里面数据存储格式 ● 数据湖实现的步骤 ● HDFS、Hive和Hbase等实现数据湖 ● 数据湖分区(LCRD) ● LCRD详解 ● 某大型银行基于Hadoop的数据湖实战解析 |
数据分层 | ● 数据体系建设 ● 数据体系规划 ● 数据分层思想 ● 贴源层数据建设 ● 统一数仓建设 ● 标签数据层建设 ● 应用数据层建设 ● 某银行数据体系建设案例分享 |
Spark core | ● Spark的编程模型 ● Spark编程模型解析 ● Partition实现机制 ● RDD的特点、操作、依赖关系 ● Transformation RDD详解 ● Action RDD详解 ● Spark的累加器详解 ● Spark的广播变量详解 ● Spark容错机制 ● lineage和checkpoint详解 ● Spark的运行方式 ● Spark的Shuffle原理详解 —Sort-Based原理 —Hash-Based原理 ● Spark3.0的新特性 ● Spark DataFrame和DateSet介绍 |
Spark SQL | ● Spark SQL原理 ● Spark SQL的Catalyst优化器 ● Spark SQL内核 ● Spark SQL和Hive ● DataFrame和DataSet架构 ● Fataframe、DataSet和Spark SQL的比较 ● SparkSQL parquet格式实战 ● Spark SQL的实例和编程 ● Spark SQL的实例操作demo ● Spark SQL的编程 |
PySpark数据分析案例实战 | ● 数据概况分析 • 数据概况 • 数据清洗 ● 单变量分析 • 观察样本0、1的平衡性 • 观察均值大小 • 可视化 ● 相关性分析和可视化 ● 逻辑回归模型的建立和评估 • 模型建立 • 模型评估 • 模型优化 ● 业务价值 ● 模型管理、发布和调用 |
流批一体大数据架构 | ● 离线数仓技术架构和技术栈介绍 ● 实时数仓架构架构和技术栈介绍 ● 流批一体架构的优点 ● 流批一体架构解决方案 ● 流批一体架构技术栈详解 ● 流批一体数据架构的设计 ● 流批一体数据摄取、整合、处理和应用的解决方案 ● 流批一体平台架构在互联的实战 ● 美团流批一体平台架构分享 |
案例介绍 | ● 互联网大数据架构分享 ● 金融大数据平台架构分享 ● 电信大数据平台架构分享 ● 数据中台案例分享 |