4006-998-758
3000+课程任你选择
企业级大数据的数据平台建设
研发学院 企业级大数据的数据平台建设 开课时间:2021-08-03
刘刚

有着10年基于大数据平台数据建模、数据治理、数据分析和挖掘的大型数据仓库项目架构实施经验,实施过基于Hadoop平台PageRank算法的实现,在大数据架构、开发、运维和优化、数据集成、数据湖(Data Lake)、数据建模、数据挖掘/机器学习、实时推荐等方面有丰富经验,了解大数据在互联网、金融、电信方面的应用、落地和使用场景。

查看老师详情
课程内容

课程大纲


模块

大纲

实战

 

 

 

 

大数据的整体技术架构

●   开源大数据技术架构

●   开源大数据常用组件之间的依赖关系

●   大数据生态系统介绍

●   离线计算框架介绍

—Mapreduce、Hive、Tez、Presto、Kylin

●   实时查询框架介绍

—NoSQL、Hbase

●   实时计算框架介绍

—Kafka、Strom、Spark Streaming

●   内存计算框架介绍

—Spark、SparkSQL、SparkMllib、SparkR

●   前沿大数据技术介绍

—Flink、Drill、Druid、KUDU等

●   海量日志快速检索架构

—ELK(Elasticsearch、Logstash、Kibana)等


 

 

 

大数据核心技术介绍

●   分布式存储HDFS架构介绍

●   HDFS的应用场景介绍

●   分布式资源管理Yarn介绍

●   Yarn的应用场景介绍

●   分布式计算MapReduce介绍

●   Hive分析工具介绍

●   NoSQL-Hbase介绍

●   Spark分布式计算介绍


 

 

数据分析技术介绍和比较(SQL on Hadoop)

●   M-OLAP分析应用场景介绍

●   Kylin实现M-OALP介绍

●   R-OLAP应用分析场景介绍

●   SparkSQL应用场景介绍

●   Impala应用场景介绍

●   Presto应用场景介绍

●   sparkSQL、Impala和Presto之间的比较

●   Elasticsearch应用场景介绍

●   ELK应用案例介绍和分享


数据整合集成

●   数据仓库典型架构介绍

—ODS层

—DW层

—DM层

●   数据安全控制

●   ETL任务调度

●   元数据管理

●   数据湖概念介绍

●   数据湖分区介绍

—着落区

—处理区

—表达去

—探索区

●   数据湖实现的技术介绍

●   数据湖与数据仓库之间的关系


 

 

 

 

大数据平台的数据架构

●   数据接入大数据平台

—离线数据接入

—实时的数据接入

●   数据处理过程

—数据的ETL

—数据分层(ODS、DW和DM等)

—数据建模

—数据校验

●   数据应用

—数据离线应用

—数据实时应用

—数据实验室

—数据展示工具(BI工具)


  数据抽取、采集和整合

 

●   RDBMS导入导出到hadoop数据仓库

●   Sqoop工具介绍和使用

●   DataX工具介绍

●   CDC工具介绍(Oracle OGG和Mysql Binlog)

●   Hadoop数据导出到RDBMS介绍和注意点

●   实时非结构化数据的采集

●   从原始搜索数据集中抽取、集成数据,整理后形成规范的数据仓库

●   基于Hadoop数据仓库的数据分层(ODS、DW、DWS/B、DM、ST)

●   数据仓库不同层之间的数据交互和ETL


   集群的规划

 

●   硬件的选择

●   容量的评估

●   节点的设置

●   运维工具的推荐

●   企业级大数据平台架构介绍

●   数据的规划

●   技术规划和选型


 

基于大数据平台数据仓库案例分析

 

●   互联网基于大数据的数据仓库建设介绍

●   金融基于大数据平台建设数据仓库案例分享

●   某大型商业银行大数据平台架构解析

●   证交所大数据平台案例分享



返回上一级