4006-998-758
3000+课程任你选择
SparkSQL
研发学院 SparkSQL 开课时间:2022-05-24
邹伟

睿客邦创始人

中国软件行业协会专家委员

华东建筑设计研究总院研究员

山东交通学院客座教授

南昌航空大学校外硕士生导师

东北石油大学硕士生导师

天津大学创业导师

领导睿客邦与全国多所高校、国企建立了AI联合实验室,完成50多个深度学习实践项目,广泛应用于医疗、交通、农业、气象、银行、电信等多个领域,擅长利用AI技术解决工业、工程中的复杂问题。


查看老师详情
课程内容


课程大纲


1 SparkSQL快速入门

1.1 什么是SparkSQL

1.2 为什么要学习SparkSQL

1.3 SparkSQL特点

1.4 SparkSQL发展历史

2 SparkSQL 概述

2.1 SparkSQL和Hive的异同

2.2 SparkSQL的数据抽象

2.3 SparkSQL数据抽象的发展

2.4 DataFrame数据抽象

2.5 SparkSession对象

2.6SparkSQL HelloWorld

3 DataFrame入门

3.1 DataFrame的组成

3.2 DataFrame的代码构建

3.3 DataFrame的入门操作

3.4 词频统计案例

3.5 电影数据分析

3.6 SparkSQL Shuffle 分区数目

3.7 SparkSQL 数据清洗API

3.8 DataFrame数据写出

3.9 DataFrame 通过JDBC读写数据库(MySQL示例)

4 SparkSQL函数定义

4.1 SparkSQL 定义UDF函数

4.2 SparkSQL 使用窗口函数

5 SparkSQL的运行流程

5.1 SparkRDD的执行流程回顾

5.2 SparkSQL的自动优化

5.3 Catalyst优化器

5.4 SparkSQL的执行流程

6 Spark On Hive

6.1 原理

6.2 配置

6.3 在代码中集成

7 分布式SQL执行引擎

7.1 概念

7.2 客户端工具连接

7.3 代码JDBC连接


返回上一级