4006-998-758
3000+课程任你选择
关于财富管理的商业数据分析
研发学院 资深软件架构师 数学博士 开课时间:2021-07-23
尹立庆

多年从事容器技术、云计算、物联网研发工作经验。北航移动云计算硕士。Cloudera大数据认证(图1),项目管理师(PMP)认证(图2),主要研究方向包括容器技术、云计算、物联网、项目管理等;曾就职于阿里等互联网企业,IBM、华为等知名大型企业,现任某大型知名互联网企业首席架构,负责容器技术、云计算、物联网、PaaS平台研发工作。

IT从业近二十年,秉承理论与实践相结合,在学习中实践,在实践中学习,积累了丰富的理论与实践经验,并且乐于将自己的经验分享。尹老师具有敏锐的目光与头脑,发现并集成整合社会资源,为企业节省资源并创造价值,达到为合作伙伴创收的目的。曾为多家国内知名企业提供培训与咨询,包含阿里集团、华为、中国移动、中国电信、中国联通、当当网、中石油、中石化、中国电网、中国银行、中国工商银行、浦发银行、阿尔卡特朗讯、中航国际等。拥有云计算、物联网、大流量、高并发、分布式的大型网站架构和设计经验。曾主导过多个云计算、物联网、私有云、公有云建设项目,早些年也主导过ERP、CMS等软件项目,积累了丰富的实践经验,这些项目中包含多个数百万、上千万的大型项目。项目经历:呼叫中心人工智能客服研发项目、贵州省政府云呼叫中心建设项目、广东发展银行电营、运维大数据分析项目、中石油工程设计西南分公司云计算项目评审委员、中石油大数据挖掘项目,电商库存预测大数据分析项目、大型ERP、电子商务、CRM、电子政务等多个项目。


查看老师详情
课程内容

课程介绍

随着大数据时代的快速到来,以及大数据在生产生活中迅速应用,大数据领域如雨后春笋般的出现大量的新技术,如Hadoop、Spark等技术,大数据领域的数据处理、统计分析、数据挖掘、机器学习、人工智能、大数据应用开发等各种不同类型的计算操作,应用范围广泛、前景非常广阔。本课程是尹老师多年大数据工作经验的总结和归纳,从实际业务案例为入口,使学员从理论层到实操层面系统的学习数据处理技术、数据挖掘、数据创新应用,使学员深入理解大数据分析工具。通过本课程的学习,学员即可以正确的分析企业的数据,为管理者、决策层提供数据支撑。


课程目标

1、 大数据的基础内容;大数据生态圈各组件介绍,包括应用场景、架构原理等;

2、 大数据平台开发实战,侧重平台开发工作,主要包括Hadoop、HDFS使用操作、MapReduce开发、YARN原理和应用、Hive数据仓库开发、HBase数据库开发;

3、 商业数据分析方法和案例;


课程方式

以课堂讲解、演示、案例分析为主,辅以互动研讨、现场答疑、学以致用。


课程对象

1、 对大数据、分布式存储、分析等感兴趣的朋友;

2、 Java、PHP、C等任意一门编程语言的开发者;

3、 大型网站、电商网站等运维人员;

4、 云计算、大数据从业者;

5、 系统架构师、系统分析师、高级程序员、资深开发人员;

6、 牵涉到大数据处理的数据中心运行、规划、设计负责人;

7、 政府机关,金融保险、移动互联网等大数据单位的负责人;

8、 高校、科研院所大数据研究人员,涉及到大数据与分布式数据处理的人员;

9、 数据仓库管理人员、建模人员,分析和开发人员、系统管理人员、数据库管理人员以及对数据仓库感兴趣的其他人员;


课程时长

2天(6小时/天)


 课程大纲


时间

内容

备注

第一天

 

第1个主题:   商业数据分析方法和案例(深入理解商业数据分析方法和案例)90分钟

1、 如何实现商业数据的分析

2、 大数据的知识体系

3、 数据分析师需要具备的技能

4、 数据思维体系

5、 数据分析方法论

6、 数据知识体系

a)     统计学

b)    数据仓库

c)     数据湖

d)    数据中台

e)     数据可视化

f)      数据分析

g)    数据挖掘

h)     数据建模

i)      数据分析工具(Excel、SPSS、SAS、Tableau、PowerBI)

j)      机器学习

k)     编程语言(Python语言、R语言、Matlab)

l)      大数据技术

m) 深度学习

n)     人工智能

o)    行业领域知识

7、 决策分析

8、 商务智能

9、 商业信息

10、 知识和洞察力

11、 科学化决策

12、 决策支持体系

13、 大数据商务智能

14、 报告撰写

15、 数据分析和应用

16、 数据分析的基本任务

17、 数据分析建模过程

a)     定义挖掘目标

b)    数据取样

c)     数据探索

d)    数据预处理

e)     挖掘建模

f)      建立模型

g)    业务理解

h)     模型拟合

i)      训练集

j)      测试集

k)     模型评价

18、 常用的机器学习模型

a)     线性回归

b)    回归(预测)与分类

c)     决策树与随机森林

d)    聚类分析(kmeans)

e)     关联规则

f)      时序模式

g)    离群点检测

h)     深度学习

i)      人工智能

j)      神经网络

19、 案例:如何从数据中挖掘出有价值的信息

20、 商业数据分析案例:预测阿里天猫双11销售额

 

第2个主题:   大数据基础知识概述(深入理解大数据生态体系)90分钟

1、 什么是大数据

2、 大数据的特征

3、 大数据应用现状

4、 大数据发展趋势

5、 大数据生态体系介绍

6、 大数据优势

7、 大数据的核心技术

8、 大数据与云计算之间的关系剖析

9、 大数据与虚拟化之间的关系剖析

10、 大数据与供应商剖析

11、 大数据与成本投入的关系剖析

12、 Hadoop是大数据架构的事实标准

13、 什么是Hadoop

14、 Hadoop由来介绍

15、 Google四篇论文的剖析

a)     GFS、MapReduce、BigTable、Chubby

16、 Hadoop的四大核心组件

17、 Hadoop相关概念

a)     块、副本

18、 实例分享:马云预测经济危机案例剖析

 

第3个主题:   Hadoop生态体系(系统理解Hadoop生态体系)30分钟

1、 Hadoop的四大核心组件

2、 Hadoop生态体系介绍

3、 PigHadoop客户端

4、 HBase大数据分布式NoSQL列式数据库

5、 Hive大数据的数据仓库

6、 Zookeeper分布式协调器

7、 Sqoop大数据导入导出工具

8、 Avro大数据系列化工具

9、 Chukwa大数据分布式数据收集系统

10、 Cassandra大数据分布式NoSQL列式数据库

11、 Ambari提供监控、管理Hadoop资源的工具

12、 MahoutHadoop数据挖掘算法库

13、 Spark大数据内存计算框架

14、 Tez通用的数据流框架

15、 Apache与CDH大数据平台方案区别

16、 Hadoop1.0与Hadoop2.0区别

 

第4个主题:   Hadoop集群(深入理解Hadoop集群并部署Hadoop集群)30分钟

1、 Hadoop工作原理及架构

2、 Hadoop部署规划

3、 Hadoop部署优化

4、 Hadoop安全管理

5、 Hadoop HA部署介绍

6、 Hadoop集群的监控

7、 动态增加Hadoop的Slave节点

8、 Hadoop集群的运维

9、 案例:基于共享存储的Hadoop集群部署案例分享

10、 案例:基于云计算集群的Hadoop集群部署案例分享

 

第5个主题: HDFS大数据分布式文件系统(深入理解大数据分布式文件系统的原理与机制)120分钟

1、 HDFS架构剖析

2、 NameNode、DataNode、SecondaryNameNode介绍

3、 NodeName高可靠性最佳实践

4、 DataNode中Block划分的原理和具体存储方式

5、 CLI操作HDFS

6、 Java操作HDFS

7、 RESTful操作HDFS

8、 动态修改Hadoop的Replication数目

9、 Hadoop序列化

10、 Hadoop流压缩

11、 Hadoop   RPC

12、 SequenceFile与MapFile

13、 Hadoop   Avro

14、 案例剖析:HDFS与RAID之间的关系

15、 案例剖析:HDFS使用操作

 


时间

内容

备注

第二天

 

第6个主题:   MapReduce大数据批处理技术开发(深入理解MapReduce原理及培训开发MapReduce程序能力)120分钟

1、 MapReduce算法剖析

2、 MapReduce数据输入和输出

3、 MapReduce编程思想

4、 MapReduce命令操作

5、 MapReduce运行过程解析

6、 Hadoop的调度器介绍

7、 Combiner的使用原则

8、 Partitioner的使用最佳实践

9、 MapReduce排序算法剖析

10、 用Streaming写MapReduce程序

11、 MapReduce   程序的单元测试程序;

12、 Hadoop   API 的深度钻研;

13、 实践性的开发窍门和技术;

14、 Partitioners   和 Reducers;

15、 子查询、触发器等常见性能问题分析及优化;

16、 MapReduce   作业中实现不同数据集的连接操作;

17、 案例:Java语言编写MapReduce程序、运行MapReduce程序、查看运行结果

 

第7个主题:   YARN原理和应用(深入剖析YARN的原理和使用)30分钟

1、 YARN介绍

2、 YARN的设计思想

3、 YARN的核心组件

4、 YARN为核心的生态系统

5、 Yarn的HA机制

6、 YARN应用程序编写

7、 ResourceManager深入剖析

8、 ClientRMService与AdminService

9、 NodeManager深入剖析

10、 Container

 

 

第8个主题:   Zookeeper大数据分布式协调器介绍(深入理解分布式协调器技术原理)30分钟

1、 Zookeeper介绍

2、 Paxos算法

3、 Paxos   算法应用场景

4、 Zookeeper的数据模型

5、 Zookeeper的节点

6、 Zookeeper的角色

7、 Zookeeper工作原理

8、 Leader选举

9、 部署ZooKeeper

10、 Shell操作Zookeeper

11、 Java程序操作Zookeeper

12、 Zookeeper典型使用场景

 

第9个主题:   HBase大数据NoSQL数据库开发(深入剖析分布式NoSQL技术及原理和HBase数据库开发)120分钟

1、 HBase介绍

2、 HBase的特点

3、 HBase逻辑模型

4、 HBase列族与列

5、 HBase时间戳

6、 行式数据库 vs 列式数据库

7、 HBase物理模型

8、 数据存储结构:LSM

9、 HBase的REST接口

10、 HBase安装部署

11、 HBase   Shell

12、 倒排索引

13、 HBase应用场景介绍

14、 开发实践分享:微博

15、 案例:基于HBase开发微博实时大数据系统

16、 HBase   Filter

17、 HBase   Coprocessor

 

第10个主题:   Hive数据仓库开发(深入剖析Hive数据仓库开发与应用案例)60分钟

1、 Hive简介

2、 Hive的组件与体系架构

3、 Hive架构

4、 Hive   vs RDBMS

5、 Hive的高可用部署方案

6、 Hive   Data Types

7、 Hive安装模式

8、 Hive安装部署

9、 Hive   Shell

10、 Hive   API开发演示

11、 Hive中UDF和UDAF

12、 Hive数据分析

13、 Java访问Hive数据

14、 案例:Hive交易数据统计分析

 




返回上一级