4006-998-758
3000+课程任你选择
Hadoop和spark技术培训
研发学院 Hadoop和spark技术培训 开课时间:2021-08-03
刘刚

有着10年基于大数据平台数据建模、数据治理、数据分析和挖掘的大型数据仓库项目架构实施经验,实施过基于Hadoop平台PageRank算法的实现,在大数据架构、开发、运维和优化、数据集成、数据湖(Data Lake)、数据建模、数据挖掘/机器学习、实时推荐等方面有丰富经验,了解大数据在互联网、金融、电信方面的应用、落地和使用场景。

查看老师详情
课程内容

课程大纲


模块

大纲

实战

大数据在国内的运用

●   大数据在国内的使用介绍

●   大数据主要的应用场景介绍

●   离线计算框架介绍

●   流式计算框架介绍

●   内存计算框架介绍

●   内存流式计算介绍


 

 

 

 

大数据平台生态组件介绍

●   开源大数据技术架构

●   开源大数据常用组件之间的依赖关系

●   离线计算框架介绍

—Mapreduce、Hive、Tez、Presto、Kylin

●   实时查询框架介绍

—NoSQL、Hbase

●   实时计算框架介绍

—Kafka、Strom、Spark Streaming

●   内存计算框架介绍

—Spark、SparkSQL、SparkMllib、SparkR

●   前沿大数据技术介绍

—Flink、Drill、Druid、KUDU等

●   海量日志快速检索架构

—ELK(Elasticsearch、Logstash、Kibana)等


 Hadoop企业级使用平台介绍

●   Apache Hadoop平台的介绍

●   HDP 大数据平台介绍

●   CDH 大数据平台介绍

●   Apache Hadoop、HDP和CDH大数据平台的比较

●   企业级大数据平台选择建议


 

 

 

 

分布式存储HDFS

●   HDFS架构介绍

●   HDFS原理介绍

●   NameNode功能详解

●   DataNode功能详

●   HDFS HA功能详解

●   HSFD的fsimage和editslog详解

●   HDFS的block详解

●   HDFS的block的备份策略

●   Hadoop的机架感知配置

●   HDFS的权限详解

 

HDFS上机实操

 

 

 

分布式计算MapReduce

●   Mapreduce原理

●   MapReduce流程

●   剖析一个MapReduce程序

●   Mapper和Reducer抽象类详解

●   Combiner详解

●   Partitioner详解

●   任务调度

●   默认的任务调度

●   公平任务调度

●   能力任务调度

 

 

Mapreduce上机实操

 

 

 

 

 

分布式资源管理Yarn

●   Yarn的原理和架构

●   Yarn资源调度策略

●   CPU、内存和IO三种资源调度优化

●   Yarn资源调度Fair和Capacity详解

●   JobHistory的功能介绍

●   Yarn动态资源的设置

●   动态分配特定节点给每个应用(MR、Strom、Spark、Hbase等)

●   基于Yarn的资源控制详解

●   基于Yarn实现底层SLA的资源分配

●   Yarn核心参数的详解和优化


     Hive实战

●   Hive的作用和原理说明

●   Hadoop仓库和传统数据仓库的协作关系

●   Hadoop/Hive仓库数据数据流

●   Hive的MetaStore详解

●   Hive的基本用法

●   Hive的server启动

●   HQL基本语法

●   Hive的加载数据本地加载和HDFS加载

●   Hive的partition详解

●   Hive的存储方式详解

●   RCFILE、TEXTFILE和SEQUEUEFILE

●   Hive的UDF和UDAF

●   Hive的JDBC连接

 

 

 

 

Hive上机实操

 

 

 

 

 

NoSQL和Hbase使用

●   NoSQL介绍

●   NoSQL应用场景

●   Hbase的架构原理

●   Hbase核心概念详解(HMaster、HRegionServer、Store、StoreFile、HFile、HLog和MetaStore)

●   HBase逻辑视图介绍

●   HBase物理视图介绍

●   HBase的RowKey设计原则

●   HBase BloomFilter的介绍

●   手动设置Split和Compaction操作

●   Pre-Split的介绍

●   HBase Region的迁移优化

●   HBase使用场景介绍

●   HBase案例分析

 

 

 

 

Hbase上机实操

 

 

 

 

Spark编程模型和解析

●  Spark的编程模型

●  Spark编程模型解析

●  Partition实现机制

●  RDD的特点、操作、依赖关系

●  Transformation RDD详解

●  Action RDD详解

●  Spark的累加器详解

●  Spark的广播变量详解

●  Spark容错机制

—  lineage和checkpoint详解

●   Spark的运行方式

●   Spark2.0的新特性

●   Spark SQL使用介绍

●   Structured Streaming使用介绍

 

 

 

 

 

Spark上机实操

   

      案例分享

●   互联网大数据案例介绍(alibaba)

●   银行大数据案例介绍

●   科技金融大数据案例介绍



返回上一级