4006-998-758
3000+课程任你选择
大数据
研发学院 大数据课程 开课时间:2021-08-03
刘刚

有着10年基于大数据平台数据建模、数据治理、数据分析和挖掘的大型数据仓库项目架构实施经验,实施过基于Hadoop平台PageRank算法的实现,在大数据架构、开发、运维和优化、数据集成、数据湖(Data Lake)、数据建模、数据挖掘/机器学习、实时推荐等方面有丰富经验,了解大数据在互联网、金融、电信方面的应用、落地和使用场景。

查看老师详情
课程内容

课程大纲


模块

培训大纲

 

大数据平台的发展

●   大数据处理技术的发展

●   MPP数据处理架构和应用场景

●   大数据数据处理技术和应用场景

●   逻辑数据架构特点和应用场景

●   企业级统一数据平台架构介绍

●   未来企业级数据架构的发展和规划

 

 

大数据的整体技术架构

●   开源大数据技术架构

●   开源大数据常用组件之间的依赖关系

●   离线计算框架介绍

—Mapreduce、Hive、Tez、Presto、Kylin

●   实时查询框架介绍

—NoSQL、Hbase

●   实时计算框架介绍

—Kafka、Strom、Spark Streaming

●   内存计算框架介绍

—Spark、SparkSQL、SparkMllib、SparkR

●   前沿大数据技术介绍

—Flink、Drill、Druid、KUDU等

●   海量日志快速检索架构

●   —ELK(Elasticsearch、Logstash、Kibana)等

大数据应用场景

●   离线计算框架介绍

●   流式计算框架介绍

●   内存计算框架介绍

●   内存流式计算介绍

●   海量非结构化数据准实时查询架构介绍

 

 

 

 

开源大数据平台常用、核心技术介绍

●   HDFS架构和原理

●   HDFS读写原理

●   HDFS的应用场景介绍

●   MapReduce架构和原理

●   MapReduce计算过程详解

●   Yarn的架构和原理

●   Yarn的资源调度详解

●   Yarn的应用场景

●   Hive架构和原理

●   Hive数据存储介绍

●   Hive的应用场景介绍

●   Hbase架构和原理

●   Hbase的数据存储模型介绍

●   Hbase的应用场景介绍

●   Sqoop、Flume架构和原理

●   Sqoop、Flume的应用场景

●   Spark架构和原理

●   Spark应用场景介绍

●   Flink应用架构实战

 

 

大数据平台建设过程讲解

 

●   数据接入大数据平台

—离线数据接入

—实时的数据接入

●   数据处理过程

—数据的ETL

—数据分层(ODS、DW和DM等)

—数据建模

—数据校验

●   数据应用

—数据离线应用

—数据实时应用

—数据实验室

数据展示工具(BI工具)

数据抽取、采集和整合

 

●   RDBMS导入导出到hadoop数据仓库

●   Sqoop工具介绍和使用

●   CDC工具介绍和使用(Oracle   OGG和Mysql Binlog)

●   实时非结构化数据的采集

●   从原始搜索数据集中抽取、集成数据,整理后形成规范的数据仓库

●   基于Hadoop数据仓库的数据分层(ODS、DW、DWS/B、DM、ST)

●   数据仓库不同层之间的数据交互和ETL

数据湖建设和ELT

●   数据湖定义

●   数据湖里面数据存储格式

●   数据湖实现的步骤

●   HDFS、Hive和Hbase等实现数据湖

●   数据湖分区(LCRD)

●   LCRD详解

●   某大型银行基于Hadoop的数据湖实战解析

 

数据分层

●   数据体系建设

●   数据体系规划

●   数据分层思想

●   贴源层数据建设

●   统一数仓建设

●   标签数据层建设

●   应用数据层建设

●   某银行数据体系建设案例分享

 

 

Spark core

●   Spark的编程模型

●   Spark编程模型解析

●   Partition实现机制

●   RDD的特点、操作、依赖关系

●   Transformation   RDD详解

●   Action RDD详解

●   Spark的累加器详解

●   Spark的广播变量详解

●   Spark容错机制

●   lineage和checkpoint详解

●   Spark的运行方式

●   Spark的Shuffle原理详解

—Sort-Based原理

—Hash-Based原理

●   Spark3.0的新特性

●   Spark   DataFrame和DateSet介绍

 

 

Spark SQL

●   Spark SQL原理

●   Spark SQL的Catalyst优化器

●   Spark SQL内核

●   Spark SQL和Hive

●   DataFrame和DataSet架构

●   Fataframe、DataSet和Spark SQL的比较

●   SparkSQL   parquet格式实战

●   Spark SQL的实例和编程

●   Spark SQL的实例操作demo

●   Spark SQL的编程

 

 

PySpark数据分析案例实战

●   数据概况分析

• 数据概况

• 数据清洗

●   单变量分析

• 观察样本0、1的平衡性

• 观察均值大小

• 可视化

●   相关性分析和可视化

●   逻辑回归模型的建立和评估

• 模型建立

• 模型评估

• 模型优化

●   业务价值

●   模型管理、发布和调用

流批一体大数据架构

●   离线数仓技术架构和技术栈介绍

●   实时数仓架构架构和技术栈介绍

●   流批一体架构的优点

●   流批一体架构解决方案

●   流批一体架构技术栈详解

●   流批一体数据架构的设计

●   流批一体数据摄取、整合、处理和应用的解决方案

●   流批一体平台架构在互联的实战

●   美团流批一体平台架构分享

 

案例介绍

●   互联网大数据架构分享

●   金融大数据平台架构分享

●   电信大数据平台架构分享

●   数据中台案例分享


返回上一级