课程收益:
深度了解主流大数据系统的系统架构,组件交互,及其内核工作与运行机制;了解大数据平台常用的以希望数据分析和实时数据处理技术
课程特点:
以主流大数据系统的原理、架构、部署、运维为脉络,分别介绍Spark,HBase和 Flink主流大数据平台系统;原理和案例结合,让学员快速掌握常用大数据平台的技术,能够独立使用大数据平台相关的技术实现相关的数据应用。
课程对象:
对大数据平台的开发感兴趣的同学、或转型大数据平台的技术人员离线数据处理和实时数据处理工程师
课程安排:
时间 | 内容 |
第一天 | 第1个主题: 大数据生态系统介绍(目的:整体了解开源大数据的技术体系) 1、 开源大数据技术架构 2、 开源大数据常用组件之间的依赖关系 3、 离线计算框架介绍 4、 —Mapreduce、Hive、Tez、Presto、Kylin 5、 实时查询框架介绍 6、 —NoSQL、Hbase 7、 实时计算框架介绍 8、 —Kafka、Storm、Spark Streaming、flink 9、 内存计算框架介绍 10、 —Spark、SparkSQL、SparkMllib、SparkR 11、 前沿大数据技术介绍 12、 —Flink、Drill、Druid、KUDU等 13、 海量日志快速检索架构 14、 —ELK(Elasticsearch、Logstash、Kibana)等 |
第一天 | 第2个主题:NoSQL和Hbase实操(目的:NoSQL的应用场景,了解Hbase的数据库的应用场景) 1、 NoSQL介绍 2、 NoSQL应用场景 3、 Hbase的架构原理 4、 Hbase核心概念详解(HMaster、HRegionServer、Store、StoreFile、HFile、HLog和MetaStore) 5、 Hbase自带的namesapce和Meta表详解 6、 HBase逻辑视图介绍 7、 HBase物理视图介绍 8、 HBase的RowKey设计原则 9、 HBase BloomFilter的介绍 10、 Hbase表的设计案例 课堂实操:hbase企业级使用场景介绍 第3个主题:kafka实战 1、 Kafka的架构 2、 Kafka的功能和应用场景介绍 3、 Kafka的数据发布和订阅应用 4、 Kafka企业级应用架构案例介绍 第4个模块 Spark技术栈介绍(目的:掌握Spark大数据平台的功能) 1、 Spark生态系统架构介绍 2、 Spark Core介绍 3、 Spark SQL介绍 4、 Spark Streaming介绍 5、 Spark 2.0 Structured Streaming介绍 6、 Spark Mllib介绍 7、 Spark Graphx介绍 第5个模块、Spark核心原理和常用功能介绍(目的:掌握Spark大数据平台的功能) 1、 Spark的编程模型 2、 Spark编程模型解析 3、 Partition实现机制 4、 RDD的特点、操作、依赖关系 5、 Transformation RDD详解 6、 Action RDD详解 7、 Spark的累加器详解 8、 Spark的广播变量详解 9、 Spark容错机制 10、 lineage和checkpoint详解 11、 Spark的运行方式 12、 Spark的Shuffle原理详解 —Sort-Based原理 —Hash-Based原理 13、 Spark2.0的新特性 14、 Spark DataFrame和DateSet介绍 |
第二天 | 第6个主题:sparkSQL、DataFram和DataSet实战 1、 Spark SQL原理 2、 Spark SQL的Catalyst优化器 3、 Spark SQL和Hive连接 4、 DataFrame和DataSet应用 5、 Dataframe、DataSet和SQL的比较 6、 SparkSQL parquet格式实战 7、 Spark SQL自定义UDF和UDAF 8、 Spark SQL 读取txt、json、csv等文件介绍 9、 Spark SQL 读写关系型数据库介绍(mysql为例) 10、 Spark SQL reflect函数介绍 11、 Spark SQL案例实操 第7个主题:流式计算技术介绍(目的:掌握大数据平台流式计算任务的架构) 1、 Structured Streaming架构和原理介绍 2、 Structured Streaming 功能介绍 3、 Structured Streaming 应用场景介绍 4、 Structured Streaming 实时性介绍 5、 Flink 架构和原理 6、 Flink的功能介绍 7、 Flink的实时性介绍 8、 Storm、Structured Streaming和Flink之间的优缺点比较 课堂实操:Structured Streaming实时计算实操 |
第二天 | 第8个主题:Flink技术实战(目的:掌握大数据平台海量数据快速检索的应用的功能和场景) 8、 Flink和Spark的深度比较 9、 Flink中的重要角⾊ 10、 无界数据流与有界数据流 11、 Flink数据流编程模型 12、 Flink的应用场景 13、 DataSet API开发 14、 Flink Accumulators & Counters 15、 Flink的分布式缓存 16、 DataStream开发 17、 基于kafka的source操作 18、 基于mysql的source操作 19、 Flink的状态管理 20、 Flink容错 21、 Flink SQL实战 22、 Flink CEP实战 23、 课堂实操:Kafka+Flink CEP+Flink SQL实战 课堂实操:使用Spark Core、Structured Streaming和SparkSQL分析数据 第9个主题:案例实战(目的:大数据在金融行业的常用应用场景和相关的技术实现为指导,让学员能够对所学的大数据技术能够进行贯通,实际解决大数据在金融行业的应用落地) (1) Structured Streaming+Kafka实现实时客户行为分析应用 (2) Flink+Kafka实时大数据分析实战案例 (3) 案例总结和答疑 |