4006-998-758
3000+课程任你选择
大数据开发技能
研发学院 大数据开发技能 开课时间:2022-02-15
尹立庆

多年从事容器技术、云计算、物联网研发工作经验。北航移动云计算硕士。Cloudera大数据认证(图1),项目管理师(PMP)认证(图2),主要研究方向包括容器技术、云计算、物联网、项目管理等;曾就职于阿里等互联网企业,IBM、华为等知名大型企业,现任某大型知名互联网企业首席架构,负责容器技术、云计算、物联网、PaaS平台研发工作。

IT从业近二十年,秉承理论与实践相结合,在学习中实践,在实践中学习,积累了丰富的理论与实践经验,并且乐于将自己的经验分享。尹老师具有敏锐的目光与头脑,发现并集成整合社会资源,为企业节省资源并创造价值,达到为合作伙伴创收的目的。曾为多家国内知名企业提供培训与咨询,包含阿里集团、华为、中国移动、中国电信、中国联通、当当网、中石油、中石化、中国电网、中国银行、中国工商银行、浦发银行、阿尔卡特朗讯、中航国际等。拥有云计算、物联网、大流量、高并发、分布式的大型网站架构和设计经验。曾主导过多个云计算、物联网、私有云、公有云建设项目,早些年也主导过ERP、CMS等软件项目,积累了丰富的实践经验,这些项目中包含多个数百万、上千万的大型项目。项目经历:呼叫中心人工智能客服研发项目、贵州省政府云呼叫中心建设项目、广东发展银行电营、运维大数据分析项目、中石油工程设计西南分公司云计算项目评审委员、中石油大数据挖掘项目,电商库存预测大数据分析项目、大型ERP、电子商务、CRM、电子政务等多个项目。


查看老师详情
课程内容

课程介绍

随着大数据时代的快速到来,以及大数据在生产生活中迅速应用,大数据的重要性越发突出,针对大数据时代的特点,尹老师总结多年大数据研发经验,本课程重点内容包括大数据开发技能培训、大数据实战培训、MySQL数据库开发技能及应用场景、数据集市之大数据技术基础与培训、CMQ开发技能培训、容器技术开发技能培训、大数据实时数仓开发技能培训、Kafka设计与开发、Flink应用场景及技术架构、Flink设计与开发等。

          1、 使学员掌握具体的项目和具体应用开发过程;

          2、 使学员掌握大数据开发技能;

          3、 使学员掌握大数据实战;

          4、 使学员掌握MySQL数据库开发技能及应用场景;

          5、 使学员掌握数据集市之大数据技术基础;

          6、 使学员掌握CMQ开发技能;

          7、 使学员掌握容器技术开发技能;

          8、 使学员掌握大数据实时数仓开发技能;

          9、 使学员掌握Kafka设计与开发;

        10、 使学员掌握Flink应用场景及技术架构;

        11、 使学员掌握Flink设计与开发;

        12、 大数据生态圈各组件介绍,包括应用场景、架构原理等,主要包括Hadoop、HDFS、MapReduce、Hive、HBase、Spark;

        13、 大数据平台搭建的实战,侧重讲解平台建设的安全性、性能调优、实际案例分析,基础搭建知识不需要过多讲解;

        14、 大数据实战,大数据架构,大数据技术,大数据安全保障等,以及大数据经验分享;

        15、 通过该课程学习使学员具备大数据管理与应用的能力;

        16、 通过该课程学习使学员具备大数据分析的能力;

        17、 通过该课程学习使学员具备大数据分布式NoSQL数据库的开发能力;

 

课程对象 


         1、 对大数据、分布式存储、分析等感兴趣的朋友;

         2、 Java、PHP、C等任意一门编程语言的开发者;

         3、 大型网站、电商网站等运维人员;

         4、 大数据、数据挖掘、云计算从业者;

         5、 熟悉Hadoop生态体系,想了解和学习Hadoop与Spark整合在企业应用实战案例的朋友;

         6、 系统架构师、系统分析师、高级程序员、资深开发人员;

         7、 牵涉到大数据处理的数据中心运行、规划、设计负责人;

         8、 政府机关,金融保险、移动互联网等大数据单位的负责人;

         9、 高校、科研院所大数据研究人员,涉及到大数据与分布式数据处理的人员;

        10、 数据仓库管理人员、建模人员,分析和开发人员、系统管理人员、数据库管理人员以及对数据仓库感兴趣的其他人员;

 

课程方式 


以课堂讲解、演示、案例分析为主,辅以互动研讨、现场答疑、学以致用。


课程时长 


3天(6小时/天)


课程大纲 


时间

内容

备注

第一天

第1个主题:   大数据介绍(深入剖析大数据)(60分钟)

1、 什么是Hadoop

2、 Hadoop由来介绍

3、 Google四篇论文的剖析

a)       GFS、MapReduce、BigTable、Chubby

4、 Hadoop的四大核心组件

5、 Hadoop相关概念

a)       块、副本

6、 什么是大数据

7、 大数据的特征

8、 大数据应用现状

9、 大数据发展趋势

10、 大数据生态体系介绍

11、 大数据优势

12、 大数据的核心技术

13、 大数据与云计算之间的关系剖析

14、 大数据与虚拟化之间的关系剖析

15、 大数据与供应商剖析

16、 大数据与成本投入的关系剖析

17、 Hadoop是大数据架构的事实标准

 

第2个主题:   大数据基础知识和框架介绍(系统性介绍大数据基础知识和框架介绍)(30分钟)

1、 大数据基础知识和框架介绍

2、 Hadoop的四大核心组件

3、 Hadoop生态体系介绍

4、 大数据分布式文件系统HDFS开发技能

5、 大数据分布式计算构架MapReduce开发技能

6、 大数据Pig开发技能

7、 HBase大数据分布式NoSQL列式数据库开发技能

8、 Hive大数据的数据仓库开发技能

9、 Zookeeper分布式协调器开发技能

10、 Sqoop大数据导入导出工具开发技能

11、 Avro大数据系列化工具开发技能

12、 Chukwa大数据分布式数据收集系统

13、 Cassandra大数据分布式NoSQL列式数据库

14、 Ambari提供监控、管理Hadoop资源的工具

15、 Spark大数据内存计算框架开发技能

16、 Tez通用的数据流框架

 

第3个主题:   大数据具体的项目和具体应用开发过程(系统性的介绍大数据具体的项目和具体应用开发过程)(30分钟)

1、 大数据的思维方式

2、 大数据环境搭建

3、 大数据项目业务需求分析

4、 大数据项目具体开发过程

5、 分享大数据具体开发过程案例

6、 数据存储和数据计算

7、 数据仓库、数据湖

8、 数据可视化

9、 数据分析

10、 数据挖掘

11、 数据建模

12、 数据分析工具

13、 机器学习

14、 编程语言(Python语言、R语言、Matlab)

15、 大数据技术

16、 深度学习

17、 人工智能

18、 行业领域知识

19、 数据表属性和相应的模型

 

第4个主题:   大数据为精准营销提供辅助的案例(深度剖析大数据为精准营销提供辅助的案例)(120分钟)

1、 个性化推荐的理论依据

2、 个性化推荐的价值

3、 个性化推荐能达到的目的

4、 个性化推荐的原则

5、 金融方面的数据源收集、存储,再到计算出来的数据进行使用

6、 个性化推荐的相关技术

7、 基于用户的常用推荐算法

8、 基于用户的协同过滤推荐

9、 编写数据脚本和Python脚本实现辅助功能实践

 

第5个主题:   大数据为用户画像提供辅助的安全(介绍大数据为用户画像提供辅助的基础知识及其应用)(120分钟)

1、 如何构建用户画像

2、 用户信息标签

3、 画像特征标识

4、 用户偏好

5、 语义化

6、 用户画像数据分类

7、 自动完善用户画像标签库

8、 用户静态画像模型

9、 用户静态画像模型演示

10、 用户行为特征分析

11、 用户行为模型

12、 用户消费行为习惯模型演示

13、 用户画像在搜索引擎中的应用

14、 用户画像在电商平台的推荐引擎中的应用

15、 用户画像在广告投放中的应用

16、 案例分享:金融行业基于用户画像的个性化精准营销

17、 案例分享:金融行业用户画像的数据脚本和Python脚本实现辅助功能实践


时间

内容

备注

 

 

 

 

 

 

 

 

 

 

 

 

 

 

第二天

第6个主题:   MySQL数据库开发技能及应用场景(深入剖析MySQL数据库开发技能及应用场景)(90分钟)

1、 MySQL数据库开发技能及应用场景

2、 MySQL体系结构

3、 InnoDB存储引擎、数据结构、事务

4、 MySQL数据库高级安装、安全及对象基本操作

5、 MySQL备份、恢复、管理常用工具、监控及故障处理

6、 MySQL主从原

7、 MySQL常见高可用架构

8、 索引

9、 索引优化技巧

10、 其他技巧

11、 存储引擎

12、 查询优化

13、 客户端/服务器通信协议

14、 查询缓存

15、 查询优化处理

16、 查询执行引擎

17、 结果返回

18、 慢查询日志

19、 Showprofiles

20、 MySQL高级特性

21、 MySQL企业应用场景

 

第7个主题:   数据集市之大数据技术基础(深入剖析数据集市之大数据技术基础)(90分钟)

1、 数据集市之大数据技术基础

2、 大数据的数据集市概述

3、 大数据的数据集市设计

4、 大数据的数据集市建模理论与方法

5、 大数据的数据集市建设、分析、设计、建模、管理

6、 大数据的数据集市优化、ETL设计与实施、OLAP设计与实施

7、 大数据的数据集市的商务智能、报表设计与应用

8、 大数据的数据集市的实践案例

9、 大数据的数据集市的使用

10、 数据仓库

11、 数据湖

12、 数据治理

 

第8个主题:   CMQ开发技能(深入剖析CMQ开发技能)(90分钟)

1、 CMQ开发技能

2、 为什么会使用消息队列

3、 分布式系统

4、 异构系统间整合

5、 应用间解耦

6、 异步消息

7、 消息队列应用场景

a)       异步处理

b)       应用解耦

c)       流量消峰

d)       日志处理

e)       消息通讯

8、 消息模式

a)       消息通道(Message Channel)模式

b)       发布者-订阅者(Publisher-Subscriber)模式

c)       消息路由(Message Router)模式

9、 单机版消息队列

10、 分布式消息队列

11、 常用的消息队列

a)       CMQ

b)       ActiveMQ

c)       RabbitMQ

d)       ZeroMQ

e)       Kafka

f)        MetaMQ

g)       RocketMQ

12、 CMQ消息队列概述

13、 CMQ的实现原理

14、 CMQ技术架构

15、 CMQ消息格式

16、 CMQ优劣势分析

17、 CMQ应用场景

18、 CMQ安装部署

19、 CMQ参数配置

20、 CMQ性能优化

21、 CMQ高可靠配置

22、 CMQ消息持久化与复制

23、 CMQ开发

 

第9个主题:   容器技术开发技能(深入剖析容器技术开发技能)(90分钟)

1、 容器技术

2、 虚拟化概念

3、 容器的历史

4、 Docker是什么

5、 为什么要使用Docker

6、 Docker VS   虚拟化

7、 Docker的实现原理

8、 Container   Engine

9、 Linux   Containers

10、 容器的资源隔离

11、 Docker客户端和服务器

12、 Docker镜像

13、 Docker   Registry

14、 容器

15、 Repositories

16、 Docker   Hub

17、 Docker   orchestration tools

18、 K8s容器管理平台


时间

内容

备注

第三天

第10个主题:   大数据实时数仓开发技能(深入剖析大数据实时数仓开发技能)(90分钟)

1、 大数据实时数仓开发技能

2、 大数据实时数仓设计原则与模型搭建

3、 星型架构与雪花型架构

4、 事实表与维度表的设计

5、 逻辑设计与物理设计

6、 大数据实时数仓设计的常用方法

7、 大数据实时数仓设计技巧总结

8、 大数据实时数仓分片

9、 大数据实时数仓索引

10、 大数据实时数仓粒度

11、 大数据实时数仓案例分析

12、 ETL的设计

13、 ETL的实施

14、 大数据实时数据集成

15、 大数据实时数据抽取

16、 大数据实时数据转换

17、 大数据实时数据加载

18、 ETL调度策略

19、 缓慢变化维度和时间戳的处理

20、 ETL高级技巧

21、 ETL案例分析

22、 ROLAP与多维数据库

23、 OLAP与OLTP的区别

24、 多维数据库与大数据实时数仓的关系

25、 OLAP模型搭建(多维模型)

26、 确定维度、量度与事实的关系

27、 OLAP的应用场景

28、 决策支持技术

29、 企业OLAP模型设计案例剖析

 

第11个主题:   Kafka设计与开发(深入剖析Kafka设计与开发)(90分钟)

1、 Kafka设计与开发

2、 为什么选择Kafka

3、 多个生产者

4、 多个消费者

5、 基于磁盘的数据存储

6、 伸缩性

7、 高性能

8、 数据生态系统

9、 安装Kafka

10、 要事先行

11、 选择操作系统

12、 安装Java

13、 安装Zookeeper

14、 安装Kafka   Broker

15、 broker配置

16、 常规配置

17、 主题的默认配置

18、 硬件的选择

19、 磁盘吞吐量

20、 磁盘容量

21、 内存

22、 网络

23、 CPU

24、 云端的Kafka

25、 Kafka集群

26、 需要多少个broker

27、 broker配置

28、 操作系统调优

29、 生产环境的注意事项

30、 垃圾回收器选项

31、 数据中心布局

32、 共享Zookeeper

33、 创建Kafka生产者

34、 发送消息到Kafka

35、 同步发送消息

36、 异步发送消息

37、 生产者的配置

38、 序列化器

39、 自定义序列化器

40、 使用Avro序列化

41、 在Kafka里使用Avro

42、 分区

 

第12个主题:   Flink应用场景及技术架构(深入剖析Flink应用场景及技术架构)(90分钟)

1、 Flink应用场景及技术架构

2、 结合场景应用案例

3、 Flink企业应用项目

4、 Flink处理大数据架构

5、 TopN计算实时最热门商品

6、 监控日志项目

7、 Flink运行状况监控

8、 Apache   Flink性能

9、 Apache   Flink调优

10、 Apache   Flink编程案例实战

11、 Apache   Flink分布式任务调度

12、 使用Apache   Flink遇到的困难

 

第13个主题:   Flink设计与开发(深入剖析Flink设计与开发)(90分钟)

1、 Flink设计与开发

2、 Apache   Flink流式计算模型

3、 Apache   Flink两种数据集

4、 无界数据集

5、 有界数据集

6、 Flink-sink

7、 SSL设置

8、 Flink的UI界面使用

9、 Flink的文件系统的支持

10、 Flink-WorkCount

11、 Flink执行模型

12、 DataStream开发

13、 Apache   Flink SQL说明

14、 Table API和SQL程序的结构

15、 将表转换为DataStream或DataSet

16、 Flink SQL编程

17、 数据同步


 

 

 

 

 

 

 

 

 

 

 


返回上一级