4006-998-758
3000+课程任你选择
Spark实时计算平台设计与实践
研发学院 Spark 开课时间:2022-03-25
杨俊

前腾讯高级产品经理

前新浪高级产品经理

现美的集团任职用户体验主任

西北大学经济管理学院讲师

畅销书籍《产品经理进阶之路-从小白到专家的升职加薪地图》作者

在互联网行业深耕10年以上,属于互联网产品领域专家级人物。擅长用户需求挖掘、商业化产品策划等。


查看老师详情
课程内容


课程大纲


时间

章节

小节

第1天

实时计算平台架构

实时计算平台总体架构

实时计算平台技术选型

实时计算平台设计要求

实时计算项目需求与架构设计

项目需求分析

项目难点及技术选型

项目总体架构

数据采集设计与要求

日志采集拓扑结构

项目集群规划

实时计算项目数据采集-Flume

Flume架构设计

实操:Flume TailDirSource实现断点续传

实操:Flume 数据重复采集bug修复

实操:Flume 高可用集群搭建

实时计算项目数据交换-Kafka

Kafka消息队列概述

Kafka工作流程分析

实操:Kafka数据生产与消费

实操:Flume与Kafka集成开发

实操:Flume与Kafka集成实现分区优化

第2天

实时计算项目数据存储-HBase

HBase 数据模型

HBase 架构原理

HBase 表设计

HBase列簇设计

HBase Rowkey设计

HBase 预建分区

实操:项目数据库建模

实时计算项目数据处理-Spark

Spark Streaming工作原理

Spark checkpoint机制及缺陷

Spark 如何维护offset防止数据丢失

实操:Spark+Kafka集成开发

实时计算项目指标统计-业务开发

项目核心代码实现

项目核心优化

实操:项目整体测试联调

项目总结以及优化


返回上一级