课程大纲
时间 | 模块 | 内容 |
第1天 spark离线性能优化实战 | Spark Core 优化 | 小文件优化 文件类型优化 常用算子比较和优化 RDD存储序列化 Spark DAG原理和优化 GC垃圾回收分析 减少任务使用内存 广播大变量 数据本地化 Spark shuffle原理和优化 Spark内存模型设计原理 Spark堆内内存管理 Spark堆外内存管理 Spark任务执行过程分析和资源占用详解 |
Spark优化案例实战 | Spark SQL核心参数优化 自定义优化Spark SQL的解析和优化引擎 某银行spark任务执行过程分析实践 — 任务优化的步骤 — 通过运行日志和spark任务的Web UI监控查看任务运行慢的原因 — 小文件优化策略 — 文件格式、文件压缩格式的选型 — shuffle阶段的优化(减少数据量、修改shuffle的参数) — 数据倾斜的优化策略实战(常用4种解决方案) — Spark主要性能提升参数的实战 任务延迟调度的优化(调整资源调度策略) | |
第二天 流式计算架构和优化实战
| 业界离线分析案例介绍 | 互联网离线数据平台案架构分享 Spark离线核心参数优化实战 |
业界流式分析案例介绍 | 美团、滴滴流式数据架构案例分享 流式计算的容错机制分享 流式计算的压测原理分享 CMB流式计算双活案例分享(两个数据中心) Structured Streaming核心参数的优化 Flink核心参数的优化 |