4006-998-758
3000+课程任你选择
Spark性能优化实战
研发学院 spark 开课时间:2023-02-08
刘刚

有着10年基于大数据平台数据建模、数据治理、数据分析和挖掘的大型数据仓库项目架构实施经验,实施过基于Hadoop平台PageRank算法的实现,在大数据架构、开发、运维和优化、数据集成、数据湖(Data Lake)、数据建模、数据挖掘/机器学习、实时推荐等方面有丰富经验,了解大数据在互联网、金融、电信方面的应用、落地和使用场景。

查看老师详情
课程内容


课程大纲


时间

模块

内容

第1天

spark离线性能优化实战

Spark Core 优化

小文件优化

文件类型优化

常用算子比较和优化

RDD存储序列化

Spark DAG原理和优化

GC垃圾回收分析

减少任务使用内存

广播大变量

数据本地化

Spark   shuffle原理和优化

Spark内存模型设计原理

Spark堆内内存管理

Spark堆外内存管理

Spark任务执行过程分析和资源占用详解

Spark优化案例实战

Spark SQL核心参数优化

自定义优化Spark   SQL的解析和优化引擎

某银行spark任务执行过程分析实践

—  任务优化的步骤

—  通过运行日志和spark任务的Web UI监控查看任务运行慢的原因

—  小文件优化策略

—  文件格式、文件压缩格式的选型

—  shuffle阶段的优化(减少数据量、修改shuffle的参数)

—  数据倾斜的优化策略实战(常用4种解决方案)

—  Spark主要性能提升参数的实战

任务延迟调度的优化(调整资源调度策略)

第二天

流式计算架构和优化实战

 

业界离线分析案例介绍

互联网离线数据平台案架构分享

Spark离线核心参数优化实战

业界流式分析案例介绍

美团、滴滴流式数据架构案例分享

流式计算的容错机制分享

流式计算的压测原理分享

CMB流式计算双活案例分享(两个数据中心)

Structured   Streaming核心参数的优化

Flink核心参数的优化


返回上一级