需求背景及培训目的:目前中心已有多个项目需要使用Saprk大数据技术解决业务需求,但是在技术能力上还缺少落地实施的经验。因此需要通过外部培训加强大家在Spark大数据技术落地实战方面的能力,提升解决问题的能力。
1.结合编码实例讲解 Spark的概念、架构及用法。
2.Spark如何选择合适的执行环境,如何配置合适的执行参数,如何确保环境的稳定运行,如何避免数据丢失及灾难恢复。
3.结合案例讲解下 Spark 图计算 GraphX 的一些应用
4.结合一个完整的 Spark项目,讲解项目落地需要注意的各种事项。
需要用到大数据及AI技术的项目组成员、中心大数据实验室成员、数据治理专项成员、对大数据及AI技术感兴趣的中高级技术人员。
时间 | 模块 | 内容 |
第一天 |
Spark技术栈介绍 | Spark-Core介绍 Spark SQL介绍 Spark Streaming介绍 Spark mllib介绍 Spark GraphX介绍 PySpark介绍 SparkR介绍 Spark3.0重要特性介绍 |
Spark编程模型和解析 | Spark的编程模型 Spark编程模型解析 Partition实现机制 RDD的特点、操作、依赖关系 Transformation RDD详解 Action RDD详解 Spark的累加器详解 Spark的广播变量详解 Spark容错机制 — lineage和checkpoint详解 Spark的运行方式 Spark的Shuffle原理详解 — Sort-Based原理 — Hash-Based原理 Spark Partition详解 | |
Spark SQL原理和实践 | Spark SQL原理 Spark SQL的Catalyst优化器 Spark SQL内核 Spark SQL和Hive连接 DataFrame和DataSet架构 Fataframe、DataSet和Spark SQL的比较 SparkSQL parquet格式实战 Spark SQL的实例和编程 Spark SQL的实例操作demo Spark SQL的编程 Spark SQL学员实操训练 | |
第二天 |
Spark Streaming详解 | Spark Streaming原理 Spark Streaming的应用场景 Windows 窗口操作 DStream详解 Spark SQL on Spark Streaming详解 Structured Streaming介绍 Structured Streaming的水印操作 Structured Streaming+kafka应用实战 流式任务的痛点和注意点 流式任务数据延迟问题 流式任务作业性能问题 流式任务任务常见的处理方式 |
SparkGraphX技术介绍 | Graphx架构个原理 Graphx图的构建要素 Graphx图操作介绍 基于Graphx实现连通图、最短路径图介绍 Graphx实现Pagerank介绍 Graphx实现最小子图应用 Graphx企业及应用架构 | |
Spark项目实战经验总结 | 小文件优化 文件类型优化 常用算子比较和优化 RDD存储序列化 Spark DAG原理和优化 GC垃圾回收分析 减少任务使用内存 广播大变量 数据本地化 Spark shuffle原理和优化 Spark内存模型设计原理 Spark堆内内存管理 Spark堆外内存管理 Spark任务执行过程分析和资源占用详解 | |
Spark大数据案例分享 | Spark SQL日志分析实战 Spark在传统(金融和电信)行业的使用介绍 |