4006-998-758
3000+课程任你选择
Hadoop、Spark和NoSQL大数据实战课程——初中级
研发学院 Hadoop Spark NoSQL 开课时间:2023-02-08
刘刚

有着10年基于大数据平台数据建模、数据治理、数据分析和挖掘的大型数据仓库项目架构实施经验,实施过基于Hadoop平台PageRank算法的实现,在大数据架构、开发、运维和优化、数据集成、数据湖(Data Lake)、数据建模、数据挖掘/机器学习、实时推荐等方面有丰富经验,了解大数据在互联网、金融、电信方面的应用、落地和使用场景。

查看老师详情
课程内容


课程大纲


时间

模块

大纲

实战

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

第一天

 

 

 

 

 

 

 

 

 

 

 

 

 

 

大数据在国内的运用

大数据在国内的使用介绍

离线计算框架介绍

流式计算框架介绍

内存计算框架介绍

内存流式计算介绍


 

 

 

 

大数据的整体技术架构

开源大数据技术架构

开源大数据常用组件之间的依赖关系

离线计算框架介绍

—Mapreduce、Hive、Tez、Presto、Kylin

实时查询框架介绍

—NoSQL、Hbase

实时计算框架介绍

—Kafka、Strom、Spark Streaming

内存计算框架介绍

—Spark、SparkSQL、SparkMllib、SparkR

前沿大数据技术介绍

—Flink、Drill、Druid、KUDU等

海量日志快速检索架构

—ELK(Elasticsearch、Logstash、Kibana)等


 

 

 

 

Hadoop平台优化点

Linux系统的优化

最佳硬件的选择和建议

HDFS架构和原理

HDFS的优化、维护和经常出现的问题

MapReduce架构和原理

MapReduce的优化、维护和经常出现的问题

Yarn的内存、CPU和IO的优化

Hbase的优化和生产环境常见的问题

Hive的优化和Hive的改进工具介绍

Impala、Kylin、Presto工具介绍

RCFile、ORC和parquet格式介绍


 

 

 

Hadoop核心组件的运维和配置

HDFS的元数据管理  

FSimage和Edit文件解析

手动修改FSimage和Edit文件

HDFS   HA的架构运维解析

Yarn服务运维详解

Yarn核心配置参数的详解

Hbase服务运维详解

手动设置Split和Compaction操作

RS宕机的运维处理

Hbase   超大表的优化实践


Yarn实战

Yarn架构和原理

ResourceManager工作原理

NodeManager工作原理

ApplicationMaster工作原理

Yarn的资源控制机制

基于内存的控制设置

基于CPU的控制设置

基于IO的控制这是

Yarn为某个运用独立分配资

基于队列的资源管理配置

基于底层硬件的SLA资源配置

不同部门或者用户的资源配置

   

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

第二天

NoSQL和Hbase使用

NoSQL介绍

NoSQL应用场景

Hbase原理

Hmaster详解

RegionServer详解

Zookeeper介绍

Hbase安装

Hbase逻辑视图介绍

Hbase物理视图介绍

Hbase的二级索引介绍

Hbase   的DDL和DML

Hbase表的设计案例

Hbase的import功能介绍

MapReduce操作Hbase

Hbase的   thrift Server介绍

Hbase   的API介绍

Hbase使用场景介绍

Hbase案例分析

MapReduce操作Hbase实战

Hbase的API实战

Hbase表结构设计实战

银行信用卡刷卡记录的查询

 

 

Spark Streaming原理和实践

Spark   Streaming原理

Spark流式处理架构

DStream的特点

Dstream的操作和RDD的区别

SatefulRDD和windowRDD实战

Kafka+Spark Steaming实战

Spark Streaming的优化

Kafka+Spark   Streaming实例

文本实例

网络数据处理


 

 

Spark SQL原理和实践

Spark SQL原理

Spark SQL的Catalyst优化器

Spark SQL内核

Spark SQL和Hive

DataFrame和DataSet架构

Fataframe、DataSet和Spark SQL的比较

SparkSQL   parquet格式实战

Spark SQL的实例和编程

Spark SQL的实例操作demo

Spark SQL的编程


Spark优化

Spark SQL的优化

基于Spark计算的文件格式选择

Spark on   Yarn的优化

Spark SQL执行计划的优化

Spark 内存管理的机制


互联网大数案例分享

互联网大数据应用案例介绍

某银行基于大数据平台风险监控案例

某银行基于大数据数据湖的案例



返回上一级