课程大纲
培训天数 | 课程模块 | 课程内容 |
第一天 (上午) | 大数据生态圈技术总览 | 1 数据采集框架分析 2 数据计算框架分析 3 数据存储框架分析 4 数据分析框架分析 5 数据检索矿建分析 6 大数据周边框架 |
HDFS实操高级内容 | 7Hadoop原理架构深入剖析 8Hadoop三大核心组件介绍 9 HDFS原理架构深入剖析 10 【实操】HDFS常用Shell命令及高级命令 11 HDFS的高可用和高扩展架构剖析 12 HDFS机架感知策略原理剖析 13 HDFS新特性之纠删码技术深入分析 | |
第一天 (下午) | MapReduce核心编程和YARN的使用 | 1 MapReduce原理架构深度剖析 2 【实操】MapReduce实战案例开发 3 MapReduce中的Shuffle过程详解 4 【实操】基于自定义Writable实现金融数据分析的实战案例 5 YARN资源管理模型分析 6【实操】YARN中的多资源队列配置和使用 |
MapReduce源码剖析及性能优化解决方案 | 7 Inputformat相关源码分析 8 Outputformat相关源码分析 9【实操】小文件问题剖析及实战 10 【实操】数据倾斜问题原理剖析及实战 11 【实操】MapReduce实现数据Join功能(包括Map端 Join和Reduce端Join) | |
第二天 (上午) | Hive快速上手及核心功能 | 1Hive原理架构深度剖析 2【实操】Hive中数据库和表的操作 3 【实操】Hive复合数据类型的使用(Array\Map\Struct) 6【实操】Hive的内部表、外部表、分区表和桶表 7 【实操】Hive高级函数的使用 8 【实操】基于Hive SQL的数据分析案例 9 基于HiveSQL的性能优化案例分析(大小表Join、数据倾斜) |
第二天 (下午) | HBase核心原理及高级特性 Kylin核心原理及高级特性 | 1 HBase核心原理及逻辑存储模型分析 2 深入HBase架构原理(核心架构、全局架构) 3 【实操】HBase常用Shell命令及JAVA API的使用 4【实操】HBase列族高级设置(生存时间、版本数、压缩、数据块、布隆过滤器) 5 【实操】HBase调忧策略(包括预分区、Rowkey的设计、链接时间的设置、批量处理的设置、WAL Flag等) 6 Kylin的核心原理及架构分析 7 Kylin中的Project、DataModel和Cube详解 8 【实操】基于Kylin的数据分析案例 |
第三天 (上午) | Spark核心编程 | 1 Spark核心原理及架构剖析 2【实操】基于Spark的离线计算程序开发 3【实操】Spark中的Transformation算子详解与实战 4【实操】Spark中的Action算子详解与实战 5 【实操】RDD持久化原理及应用 6 【实操】基于Spark Core实现分组排序TopN功能 |
第三天 (下午) | Spark性能优化、SparkSQL、图计算 | 1 Checkpoint机制核心原理及应用详解 2 Spark的性能优化手段(序列化、内存、并行度等方面的调忧) 3 Spark SQL的使用及新特性(AQE机制、DPP) 4 Spark SQL深度集成Hive 5 Spark GraphX(图计算)模块的使用 6【案例】 基于Spark+Neo4j实现的图数据存储和计算 |
第四天 (上午) | Kafka核心原理及使用 | 1 Kafka中的生产者和消费者详解 3 核心组件扩展Broker、Producer、Consumer 4 Kafka中的存储策略和容错机制深入剖析 5【实操】生产者和消费者在企业中的高级应用 6【实操】 Kafka中三种语义的使用(至少一次、至多一次和仅一次) 7Kafka核心参数调忧 8Kafka集群监控管理工具(CMAK) |
Storm VS Flink | 1 Storm原理架构深度剖析 2 Flink原理架构深度剖析 3 Storm VS SparkStreaming VS Flink 4 【实操】基于Flink的实时计算任务开发 | |
第四天 (下午) | Flink核心功能及高级特性 | 1 【实操】Flink Datastream 常用算子使用 2 【实操】Flink 中的 Window 详解及应用(TimeWindow、CountWindow) 3 Flink 中的 Time 详细分析 4 Flink 中的 Parallel 分析 5 Flink 中的实时数据乱序问题分析及解决方案 6 【实操】Flink 中的 Watermark 机制介绍及实战 7 Flink 中的State 管理与恢复机制详解(涉及State的原理及使用) 8 Flink SQL在实时计算中的使用 9 Flink SQL双流Join详解(涉及各种Join场景) 10 【案例】Flink SQL 实现企业级数据流转功能 |
第五天 (上午) | Redis原理及核心功能 | 1 Redis的核心原理剖析 2 Redis常用数据类型详解(String、Hash、List、Set、SortedSet) 3 【实操】在Redis中维护平台用户相关信息 4 Redis高级特性之Expire、Pipeline、Info、Monitor、安全策略等 5 【实操】基于Redis实现定时刷新的游戏排行榜功能 6 Redis的持久化方案详解(包括RDB和AOF) 7 Redis架构演进过程分析(单机、主从、Sentinel、集群) |
Elasticsearch原理及应用 | 1 Elasticsearch核心原理及概念分析 2 MySQL和Elasticsearch全方位对比分析 3 【实操】Elasticsearch中RestAPI和JavaAPI的实战应用 | |
第五天 (下午) | Elasticsearch高级功能 ELK架构的原理及使用 | 1 Elasticsearch集群监控工具的使用-cerebro 2 Elasticsearch分词及倒排索引剖析 3 【实战】Elasticsearch集成中文分词器插件(包括自定义词库、热更新词库) 4 【实战】Elasticsearch Search查询功能详解(涉及多种查询规则、分页、排序、高亮等) 5 Elasticsearch 分页的性能问题分析 6 【实战】Elasticsearch 中settings和mappings的高级设置 7 【实战】Elasticsearch中的偏好查询和极速查询功能(routing路由功能) 8 【实战】Elasticsearch中索引库模板和索引库别名的使用 9 Elasticsearch SQL的使用及优化策略 10 【实战】基于Elasticsearch+HBase解决海量数据存储及多条件快速复杂查询需求 11 ELK原理及架构分析 12 【实战】基于ELK构建海量日志采集聚合检索平台 |