课程大纲
1 SparkSQL快速入门
1.1 什么是SparkSQL
1.2 为什么要学习SparkSQL
1.3 SparkSQL特点
1.4 SparkSQL发展历史
2 SparkSQL 概述
2.1 SparkSQL和Hive的异同
2.2 SparkSQL的数据抽象
2.3 SparkSQL数据抽象的发展
2.4 DataFrame数据抽象
2.5 SparkSession对象
2.6SparkSQL HelloWorld
3 DataFrame入门
3.1 DataFrame的组成
3.2 DataFrame的代码构建
3.3 DataFrame的入门操作
3.4 词频统计案例
3.5 电影数据分析
3.6 SparkSQL Shuffle 分区数目
3.7 SparkSQL 数据清洗API
3.8 DataFrame数据写出
3.9 DataFrame 通过JDBC读写数据库(MySQL示例)
4 SparkSQL函数定义
4.1 SparkSQL 定义UDF函数
4.2 SparkSQL 使用窗口函数
5 SparkSQL的运行流程
5.1 SparkRDD的执行流程回顾
5.2 SparkSQL的自动优化
5.3 Catalyst优化器
5.4 SparkSQL的执行流程
6 Spark On Hive
6.1 原理
6.2 配置
6.3 在代码中集成
7 分布式SQL执行引擎
7.1 概念
7.2 客户端工具连接
7.3 代码JDBC连接