大数据课程

大数据

研发学院大数据课程

刘刚

有着10年基于大数据平台数据建模、数据治理、数据分析和挖掘的大型数据仓库项目架构实施经验，实施过基于Hadoop平台PageRank算法的实现，在大数据架构、开发、运维和优化、数据集成、数据湖(Data Lake)、数据建模、数据挖掘/机器学习、实时推荐等方面有丰富经验，了解大数据在互联网、金融、电信方面的应用、落地和使用场景。

查看老师详情

课程内容

课程大纲

模块

培训大纲

大数据平台的发展

● 大数据处理技术的发展

● MPP数据处理架构和应用场景

● 大数据数据处理技术和应用场景

● 逻辑数据架构特点和应用场景

● 企业级统一数据平台架构介绍

● 未来企业级数据架构的发展和规划

大数据的整体技术架构

● 开源大数据技术架构

● 开源大数据常用组件之间的依赖关系

● 离线计算框架介绍

—Mapreduce、Hive、Tez、Presto、Kylin

● 实时查询框架介绍

—NoSQL、Hbase

● 实时计算框架介绍

—Kafka、Strom、Spark Streaming

● 内存计算框架介绍

—Spark、SparkSQL、SparkMllib、SparkR

● 前沿大数据技术介绍

—Flink、Drill、Druid、KUDU等

● 海量日志快速检索架构

● —ELK（Elasticsearch、Logstash、Kibana）等

大数据应用场景

● 离线计算框架介绍

● 流式计算框架介绍

● 内存计算框架介绍

● 内存流式计算介绍

● 海量非结构化数据准实时查询架构介绍

开源大数据平台常用、核心技术介绍

● HDFS架构和原理

● HDFS读写原理

● HDFS的应用场景介绍

● MapReduce架构和原理

● MapReduce计算过程详解

● Yarn的架构和原理

● Yarn的资源调度详解

● Yarn的应用场景

● Hive架构和原理

● Hive数据存储介绍

● Hive的应用场景介绍

● Hbase架构和原理

● Hbase的数据存储模型介绍

● Hbase的应用场景介绍

● Sqoop、Flume架构和原理

● Sqoop、Flume的应用场景

● Spark架构和原理

● Spark应用场景介绍

● Flink应用架构实战

大数据平台建设过程讲解

● 数据接入大数据平台

—离线数据接入

—实时的数据接入

● 数据处理过程

—数据的ETL

—数据分层(ODS、DW和DM等)

—数据建模

—数据校验

● 数据应用

—数据离线应用

—数据实时应用

—数据实验室

数据展示工具(BI工具)

数据抽取、采集和整合

● RDBMS导入导出到hadoop数据仓库

● Sqoop工具介绍和使用

● CDC工具介绍和使用(Oracle OGG和Mysql Binlog)

● 实时非结构化数据的采集

● 从原始搜索数据集中抽取、集成数据，整理后形成规范的数据仓库

● 基于Hadoop数据仓库的数据分层(ODS、DW、DWS/B、DM、ST)

● 数据仓库不同层之间的数据交互和ETL

数据湖建设和ELT

● 数据湖定义

● 数据湖里面数据存储格式

● 数据湖实现的步骤

● HDFS、Hive和Hbase等实现数据湖

● 数据湖分区(LCRD)

● LCRD详解

● 某大型银行基于Hadoop的数据湖实战解析

数据分层

● 数据体系建设

● 数据体系规划

● 数据分层思想

● 贴源层数据建设

● 统一数仓建设

● 标签数据层建设

● 应用数据层建设

● 某银行数据体系建设案例分享

Spark core

● Spark的编程模型

● Spark编程模型解析

● Partition实现机制

● RDD的特点、操作、依赖关系

● Transformation RDD详解

● Action RDD详解

● Spark的累加器详解

● Spark的广播变量详解

● Spark容错机制

● lineage和checkpoint详解

● Spark的运行方式

● Spark的Shuffle原理详解

—Sort-Based原理

—Hash-Based原理

● Spark3.0的新特性

● Spark DataFrame和DateSet介绍

Spark SQL

● Spark SQL原理

● Spark SQL的Catalyst优化器

● Spark SQL内核

● Spark SQL和Hive

● DataFrame和DataSet架构

● Fataframe、DataSet和Spark SQL的比较

● SparkSQL parquet格式实战

● Spark SQL的实例和编程

● Spark SQL的实例操作demo

● Spark SQL的编程

PySpark数据分析案例实战

● 数据概况分析

• 数据概况

• 数据清洗

● 单变量分析

• 观察样本0、1的平衡性

• 观察均值大小

• 可视化

● 相关性分析和可视化

● 逻辑回归模型的建立和评估

• 模型建立

• 模型评估

• 模型优化

● 业务价值

● 模型管理、发布和调用

流批一体大数据架构

● 离线数仓技术架构和技术栈介绍

● 实时数仓架构架构和技术栈介绍

● 流批一体架构的优点

● 流批一体架构解决方案

● 流批一体架构技术栈详解

● 流批一体数据架构的设计

● 流批一体数据摄取、整合、处理和应用的解决方案

● 流批一体平台架构在互联的实战

● 美团流批一体平台架构分享

案例介绍

● 互联网大数据架构分享

● 金融大数据平台架构分享

● 电信大数据平台架构分享

● 数据中台案例分享

返回上一级

课程时长

4天

课程排期

待定

我要报名我要分享

课程推荐

返回上一级