4006-998-758
3000+课程任你选择
数据治理、数据架构设计及数据标准化方法
研发学院 数据标准化 数据治理 大数据平台 开课时间:2021-07-03
刘刚

有着10年基于大数据平台数据建模、数据治理、数据分析和挖掘的大型数据仓库项目架构实施经验,实施过基于Hadoop平台PageRank算法的实现,在大数据架构、开发、运维和优化、数据集成、数据湖(Data Lake)、数据建模、数据挖掘/机器学习、实时推荐等方面有丰富经验,了解大数据在互联网、金融、电信方面的应用、落地和使用场景。

查看老师详情
课程内容

时间安排

模块

培训大纲

 

 

 

 

 

 

 

 

第一天

 

 

 

 

大数据平台的发展

 大数据处理技术的发展

 MPP数据处理架构和应用场景

 大数据数据处理技术和应用场景

 逻辑数据架构特点和应用场景

 企业级统一数据平台架构介绍

 未来企业级数据架构的发展和规划

 

 

 

 

 

大数据的整体技术架构

 开源大数据技术架构

 开源大数据常用组件之间的依赖关系

 离线计算框架介绍

—Mapreduce、Hive、Tez、Presto、Kylin

 实时查询框架介绍

—NoSQL、Hbase

 实时计算框架介绍

—Kafka、Strom、Spark Streaming

 内存计算框架介绍

—Spark、SparkSQL、SparkMllib、SparkR

 前沿大数据技术介绍

—Flink、Drill、Druid、KUDU等

 海量日志快速检索架构

 —ELK(Elasticsearch、Logstash、Kibana)等

大数据应用场景

 离线计算框架介绍

 流式计算框架介绍

 内存计算框架介绍

 内存流式计算介绍

 海量非结构化数据准实时查询架构介绍

Hadoop常用商业版平台的比较

 Apache 大数据平台介绍

 CDH大数据平台介绍

 HDP大数据平台介绍

 国内常用大数据平台介绍

 CDH、HDP大数据平台比较

 企业级大数据平台选择建议

 

 

 

 

开源大数据平台常用、核心技术介绍

 HDFS架构和原理

 HDFS读写原理

 HDFS的应用场景介绍

 MapReduce架构和原理

 MapReduce计算过程详解

 Yarn的架构和原理

 Yarn的资源调度详解

 Yarn的应用场景

 Hive架构和原理

 Hive数据存储介绍

 Hive的应用场景介绍

 Hbase架构和原理

 Hbase的数据存储模型介绍

 Hbase的应用场景介绍

 Sqoop、Flume架构和原理

 Sqoop、Flume的应用场景

 Spark架构和原理

 Spark应用场景介绍

 Flink应用架构实战

 

 

 

 

 

 

第二天

 

 

 

 

大数据平台建设过程讲解

 

 数据接入大数据平台

—离线数据接入

—实时的数据接入

 数据处理过程

—数据的ETL

—数据分层(ODS、DW和DM等)

—数据建模

—数据校验

 数据应用

—数据离线应用

—数据实时应用 

—数据实验室

数据展示工具(BI工具)

 数据抽取、采集和整合

 

 RDBMS导入导出到hadoop数据仓库

 Sqoop工具介绍和使用

 CDC工具介绍和使用(Oracle OGG和Mysql Binlog)

 实时非结构化数据的采集

 从原始搜索数据集中抽取、集成数据,整理后形成规范的数据仓库

 基于Hadoop数据仓库的数据分层(ODS、DW、DWS/B、DM、ST)

 数据仓库不同层之间的数据交互和ETL

数据湖建设和ELT

 数据湖定义

 数据湖里面数据存储格式

 数据湖实现的步骤 

 HDFS、Hive和Hbase等实现数据湖

 数据湖分区(LCRD)

 LCRD详解

 某大型银行基于Hadoop的数据湖实战解析

 

 

大数据平台安全介绍

 Kerberos原理介绍

 Hadoop与Kerberos集成

 Sentry、Ranger工具介绍 

 大数据平台资源安全控制

 HDFS安全控制实践

 Hive安全控制实践

 Hbase安全控制实践

 日志审计实战

  

案例介绍

 互联网大数据架构分享

 金融大数据平台架构分享

 电信大数据平台架构分享

 数据中台案例分享


 

 

 

 

 

数据治理范围

 数据治理范围

 u大数据平台数据建设中存在的问题

 u数据治理面临的挑战

 u数据的多元化

 u数据的复杂性

 u数据的完整性

 u数据生命周期管理

 u统一元数据管理

 u数据集成方法

 u数据安全

 u数据湖架构

 u基于大数据平台的数据建模

 uRMDBS数据的增量实时同步采集


 

 

 

 

数据质量管理

 

 u数据质量管理的范围

 u数据质量评估的维度

 u数据质量的维护管理

 u数据质量的改进管理

 u数据质量管理模型

 u数据质量管理的监控

 u案例演示


返回上一级