大数据,Spark SQL

大数据课程

研发学院 Spark SQL 大数据

刘刚

有着10年基于大数据平台数据建模、数据治理、数据分析和挖掘的大型数据仓库项目架构实施经验，实施过基于Hadoop平台PageRank算法的实现，在大数据架构、开发、运维和优化、数据集成、数据湖(Data Lake)、数据建模、数据挖掘/机器学习、实时推荐等方面有丰富经验，了解大数据在互联网、金融、电信方面的应用、落地和使用场景。

查看老师详情

课程内容

时间安排

模块

培训大纲

第一天

大数据平台的发展

大数据处理技术的发展

MPP数据处理架构和应用场景

大数据数据处理技术和应用场景

逻辑数据架构特点和应用场景

企业级统一数据平台架构介绍

未来企业级数据架构的发展和规划

大数据的整体技术架构

开源大数据技术架构

开源大数据常用组件之间的依赖关系

离线计算框架介绍

—Mapreduce、Hive、Tez、Presto、Kylin

实时查询框架介绍

—NoSQL、Hbase

实时计算框架介绍

—Kafka、Strom、Spark Streaming

内存计算框架介绍

—Spark、SparkSQL、SparkMllib、SparkR

前沿大数据技术介绍

—Flink、Drill、Druid、KUDU等

海量日志快速检索架构

—ELK（Elasticsearch、Logstash、Kibana）等

大数据应用场景

离线计算框架介绍

流式计算框架介绍

内存计算框架介绍

内存流式计算介绍

海量非结构化数据准实时查询架构介绍

开源大数据平台常用、核心技术介绍

HDFS架构和原理

HDFS读写原理

HDFS的应用场景介绍

MapReduce架构和原理

MapReduce计算过程详解

Yarn的架构和原理

Yarn的资源调度详解

Yarn的应用场景

Hive架构和原理

Hive数据存储介绍

Hive的应用场景介绍

Hbase架构和原理

Hbase的数据存储模型介绍

Hbase的应用场景介绍

Sqoop、Flume架构和原理

Sqoop、Flume的应用场景

Spark架构和原理

Spark应用场景介绍

Flink应用架构实战

第二天

大数据平台建设过程讲解

数据接入大数据平台

—离线数据接入

—实时的数据接入

数据处理过程

—数据的ETL

—数据分层(ODS、DW和DM等)

—数据建模

—数据校验

数据应用

—数据离线应用

—数据实时应用

—数据实验室

数据展示工具(BI工具)

数据抽取、采集和整合

RDBMS导入导出到hadoop数据仓库

Sqoop工具介绍和使用

CDC工具介绍和使用(Oracle OGG和Mysql Binlog)

实时非结构化数据的采集

从原始搜索数据集中抽取、集成数据，整理后形成规范的数据仓库

基于Hadoop数据仓库的数据分层(ODS、DW、DWS/B、DM、ST)

数据仓库不同层之间的数据交互和ETL

数据湖建设ELT

数据湖定义

数据湖里面数据存储格式

数据湖实现的步骤

HDFS、Hive和Hbase等实现数据湖

数据湖分区(LCRD)

LCRD详解

某大型银行基于Hadoop的数据湖实战解析

第三天

数据分层

数据体系建设

数据体系规划

数据分层思想

贴源层数据建设

统一数仓建设

标签数据层建设

应用数据层建设

某银行数据体系建设案例分享

Spark core

Spark的编程模型

Spark编程模型解析

Partition实现机制

RDD的特点、操作、依赖关系

Transformation RDD详解

Action RDD详解

Spark的累加器详解

Spark的广播变量详解

Spark容错机制

lineage和checkpoint详解

Spark的运行方式

Spark的Shuffle原理详解

—Sort-Based原理

—Hash-Based原理

Spark3.0的新特性

Spark DataFrame和DateSet介绍

Spark SQL

Spark SQL原理

Spark SQL的Catalyst优化器

Spark SQL内核

Spark SQL和Hive

DataFrame和DataSet架构

Fataframe、DataSet和Spark SQL的比较

SparkSQL parquet格式实战

Spark SQL的实例和编程

Spark SQL的实例操作demo

Spark SQL的编程

PySpark数据分析案例实战

数据概况分析

• 数据概况

• 数据清洗

单变量分析

• 观察样本0、1的平衡性

• 观察均值大小

• 可视化