4006-998-758
3000+课程任你选择
大数据Spark处理案例分析与实践
研发学院 Spark Streaming GraphX 开课时间:2021-07-03
刘刚

有着10年基于大数据平台数据建模、数据治理、数据分析和挖掘的大型数据仓库项目架构实施经验,实施过基于Hadoop平台PageRank算法的实现,在大数据架构、开发、运维和优化、数据集成、数据湖(Data Lake)、数据建模、数据挖掘/机器学习、实时推荐等方面有丰富经验,了解大数据在互联网、金融、电信方面的应用、落地和使用场景。

查看老师详情
课程内容

需求背景及培训目的:目前中心已有多个项目需要使用Saprk大数据技术解决业务需求,但是在技术能力上还缺少落地实施的经验。因此需要通过外部培训加强大家在Spark大数据技术落地实战方面的能力,提升解决问题的能力。

1.结合编码实例讲解 Spark的概念、架构及用法。

2.Spark如何选择合适的执行环境,如何配置合适的执行参数,如何确保环境的稳定运行,如何避免数据丢失及灾难恢复。

3.结合案例讲解下 Spark 图计算 GraphX 的一些应用
4.结合一个完整的 Spark项目,讲解项目落地需要注意的各种事项。

需要用到大数据及AI技术的项目组成员、中心大数据实验室成员、数据治理专项成员、对大数据及AI技术感兴趣的中高级技术人员。

时间

模块

内容

 

 

 

 

 

 

 

 

 

 

 

 

 

   第一天

 

Spark技术栈介绍

 Spark-Core介绍

 Spark SQL介绍

 Spark Streaming介绍

 Spark mllib介绍

 Spark GraphX介绍

 PySpark介绍

 SparkR介绍

 Spark3.0重要特性介绍

 

 

 

 

 

Spark编程模型和解析

 Spark的编程模型

 Spark编程模型解析

 Partition实现机制

 RDD的特点、操作、依赖关系

 Transformation RDD详解

 Action RDD详解

 Spark的累加器详解

 Spark的广播变量详解

 Spark容错机制

  — lineage和checkpoint详解

 Spark的运行方式

 Spark的Shuffle原理详解

  — Sort-Based原理

  — Hash-Based原理

 Spark Partition详解

 

 

 Spark SQL原理和实践

 Spark SQL原理

 Spark SQL的Catalyst优化器

 Spark SQL内核

 Spark SQL和Hive连接

 DataFrame和DataSet架构

 Fataframe、DataSet和Spark SQL的比较

 SparkSQL parquet格式实战

 Spark SQL的实例和编程

 Spark SQL的实例操作demo

 Spark SQL的编程

 Spark SQL学员实操训练

 

 

 

 

 

 

 

   第二天

 

 

 

 

Spark Streaming详解

 Spark Streaming原理

 Spark Streaming的应用场景

 Windows 窗口操作

 DStream详解

 Spark SQL on Spark Streaming详解

 Structured Streaming介绍

 Structured Streaming的水印操作

 Structured Streaming+kafka应用实战

 流式任务的痛点和注意点

 流式任务数据延迟问题

 流式任务作业性能问题

 流式任务任务常见的处理方式

 

 

 

SparkGraphX技术介绍

 Graphx架构个原理

 Graphx图的构建要素

 Graphx图操作介绍

 基于Graphx实现连通图、最短路径图介绍

 Graphx实现Pagerank介绍

 Graphx实现最小子图应用

 Graphx企业及应用架构

 

 

 

 

 

 

 

Spark项目实战经验总结

 小文件优化

 文件类型优化

 常用算子比较和优化

 RDD存储序列化

 Spark DAG原理和优化

 GC垃圾回收分析

 减少任务使用内存

 广播大变量

 数据本地化

 Spark shuffle原理和优化

 Spark内存模型设计原理

 Spark堆内内存管理

 Spark堆外内存管理

 Spark任务执行过程分析和资源占用详解

 数据湖工具Iceberg和Delta实战

Spark大数据案例分享

 Spark SQL日志分析实战

 Spark在传统(金融和电信)行业的使用介绍


返回上一级