课程大纲
模块 | 大纲 | 实战 |
大数据在国内的运用 | ● 大数据在国内的使用介绍 ● 大数据主要的应用场景介绍 ● 离线计算框架介绍 ● 流式计算框架介绍 ● 内存计算框架介绍 ● 内存流式计算介绍 | |
大数据平台生态组件介绍 | ● 开源大数据技术架构 ● 开源大数据常用组件之间的依赖关系 ● 离线计算框架介绍 —Mapreduce、Hive、Tez、Presto、Kylin ● 实时查询框架介绍 —NoSQL、Hbase ● 实时计算框架介绍 —Kafka、Strom、Spark Streaming ● 内存计算框架介绍 —Spark、SparkSQL、SparkMllib、SparkR ● 前沿大数据技术介绍 —Flink、Drill、Druid、KUDU等 ● 海量日志快速检索架构 —ELK(Elasticsearch、Logstash、Kibana)等 | |
Hadoop企业级使用平台介绍 | ● Apache Hadoop平台的介绍 ● HDP 大数据平台介绍 ● CDH 大数据平台介绍 ● Apache Hadoop、HDP和CDH大数据平台的比较 ● 企业级大数据平台选择建议 | |
分布式存储HDFS | ● HDFS架构介绍 ● HDFS原理介绍 ● NameNode功能详解 ● DataNode功能详 ● HDFS HA功能详解 ● HSFD的fsimage和editslog详解 ● HDFS的block详解 ● HDFS的block的备份策略 ● Hadoop的机架感知配置 ● HDFS的权限详解 |
HDFS上机实操 |
分布式计算MapReduce | ● Mapreduce原理 ● MapReduce流程 ● 剖析一个MapReduce程序 ● Mapper和Reducer抽象类详解 ● Combiner详解 ● Partitioner详解 ● 任务调度 ● 默认的任务调度 ● 公平任务调度 ● 能力任务调度 |
Mapreduce上机实操 |
分布式资源管理Yarn | ● Yarn的原理和架构 ● Yarn资源调度策略 ● CPU、内存和IO三种资源调度优化 ● Yarn资源调度Fair和Capacity详解 ● JobHistory的功能介绍 ● Yarn动态资源的设置 ● 动态分配特定节点给每个应用(MR、Strom、Spark、Hbase等) ● 基于Yarn的资源控制详解 ● 基于Yarn实现底层SLA的资源分配 ● Yarn核心参数的详解和优化 | |
Hive实战 | ● Hive的作用和原理说明 ● Hadoop仓库和传统数据仓库的协作关系 ● Hadoop/Hive仓库数据数据流 ● Hive的MetaStore详解 ● Hive的基本用法 ● Hive的server启动 ● HQL基本语法 ● Hive的加载数据本地加载和HDFS加载 ● Hive的partition详解 ● Hive的存储方式详解 ● RCFILE、TEXTFILE和SEQUEUEFILE ● Hive的UDF和UDAF ● Hive的JDBC连接 |
Hive上机实操 |
NoSQL和Hbase使用 | ● NoSQL介绍 ● NoSQL应用场景 ● Hbase的架构原理 ● Hbase核心概念详解(HMaster、HRegionServer、Store、StoreFile、HFile、HLog和MetaStore) ● HBase逻辑视图介绍 ● HBase物理视图介绍 ● HBase的RowKey设计原则 ● HBase BloomFilter的介绍 ● 手动设置Split和Compaction操作 ● Pre-Split的介绍 ● HBase Region的迁移优化 ● HBase使用场景介绍 ● HBase案例分析 |
Hbase上机实操 |
Spark编程模型和解析 | ● Spark的编程模型 ● Spark编程模型解析 ● Partition实现机制 ● RDD的特点、操作、依赖关系 ● Transformation RDD详解 ● Action RDD详解 ● Spark的累加器详解 ● Spark的广播变量详解 ● Spark容错机制 — lineage和checkpoint详解 ● Spark的运行方式 ● Spark2.0的新特性 ● Spark SQL使用介绍 ● Structured Streaming使用介绍 |
Spark上机实操 |
案例分享 | ● 互联网大数据案例介绍(alibaba) ● 银行大数据案例介绍 ● 科技金融大数据案例介绍 |