4006-998-758
3000+课程任你选择
基于Hadoop、Spark数据分析和挖掘实战
研发学院 基于Hadoop、Spark数据分析和挖掘实战 开课时间:2023-02-22
刘刚

有着10年基于大数据平台数据建模、数据治理、数据分析和挖掘的大型数据仓库项目架构实施经验,实施过基于Hadoop平台PageRank算法的实现,在大数据架构、开发、运维和优化、数据集成、数据湖(Data Lake)、数据建模、数据挖掘/机器学习、实时推荐等方面有丰富经验,了解大数据在互联网、金融、电信方面的应用、落地和使用场景。

查看老师详情
课程内容

课程信息


基于开源大数据平台数据分析和挖掘实训课程,该是一个理论与实践相结合的课程,阐述大数据主流的系统架构,数据分析和挖掘的技术、流程。

本课程包含了两个真实数据分析和挖掘实战案例,通过具体的案例了解大数据平台常用的数据分析和挖掘技术。

本课程是目前基于大数据平台数据分析和挖掘的主流课程,涵盖了基于大数据平台数据分析和挖掘的整个流程和技术。

 

课程特色


以主流大数据系统的原理、架构、部署、运维为脉络,分别介绍Hadoop,Spark,Kafka,HBase等主流大数据平台系统;

通过经典机器学习模型,以Spark MLlib为主要介绍框架,揭示机器分类,回归,聚类,推荐等算法的原理与实践,并深入分布式算法的原理与工作机制,机器学习算法与模型优化。

 

课程收益


◆ 深度了解主流大数据系统的系统架构,组件交互,及其内核工作与运行机制;

◆ 了解大数据平台常用的以希望数据分析和挖掘的技术,如:Hadoop、Hive、Spark等

◆ 深度了解机器学习算法,及其Spark MLlib基本算法原理,以及机器学习算法实践与优化。

◆ 了解目前主流的数据分析和挖掘平台

◆ 了解基于Python数据分析和挖掘的技术栈

◆ 能够使用Python基于Spark额mllib上面进行数据分析和挖掘。


课程对象


◆ 具有1年及以上工作经验,并期望掌握大数据系统与机器学习算法,大数据系统架构,机器学习算法运行机制的研发工程师,算法工程师,及其架构师。

◆ 利用大数据平台数据分析挖掘的同学

◆ 了解基于大数据平台常用数据分析和挖掘的流程和方法


课程基础 


至少熟悉掌握如下一名程序设计语言:Java,Python;

了解数据分析和挖掘的相关概念。

 

课程大纲


课程模块

课程主题

主要内容

案例和演示

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

第一天

 

Spark技术栈介绍

Spark-Core介绍

Spark SQL介绍

Spark   Streaming介绍

Spark   mllib介绍

Spark   GraphX介绍

PySpark介绍

SparkR介绍

Spark3.0重要特性介绍


 

 

 Spark编程模型和解析

Spark的编程模型

Spark编程模型解析

Partition实现机制

RDD的特点、操作、依赖关系

Transformation   RDD详解

Action   RDD详解

Spark的累加器详解

Spark的广播变量详解

Spark容错机制

lineage和checkpoint详解

Spark的运行方式

Spark的Shuffle原理详解

Sort-Based原理

Hash-Based原理

Spark   Partition详解


 

 Spark SQL原理和实践

Spark SQL原理

Spark SQL的Catalyst优化器

Spark SQL内核

Spark SQL和Hive连接

DataFrame和DataSet架构

Fataframe、DataSet和Spark SQL的比较

SparkSQL   parquet格式实战

Spark SQL的实例和编程

Spark SQL的实例操作demo

Spark SQL的编程

Spark SQL学员实操训练



Spark Streaming详解

Spark Streaming原理

Spark Streaming的应用场景

Windows 窗口操作

DStream详解

Spark SQL on Spark Streaming详解

Structured Streaming介绍

Structured Streaming的水印操作

Structured Streaming+kafka应用实战

流式任务的痛点和注意点

流式任务数据延迟问题

流式任务作业性能问题

流式任务任务常见的处理方式


 

 

 

 

 

 

 

Day2

上午

 

Spark优化实战

 

 

 

 

 

 

 

Spark优化实战

小文件优化

文件类型优化

常用算子比较和优化

RDD存储序列化

Spark DAG原理和优化

GC垃圾回收分析

减少任务使用内存

广播大变量

数据本地化

Spark   shuffle原理和优化

Spark内存模型设计原理

Spark堆内内存管理

Spark堆外内存管理

Spark任务执行过程分析和资源占用详解

sparkSQL核心配置参数详解


Day2

下午

数据分析和数据挖掘方法论和Spark数据分析实战

数据分析和数据挖掘方法论

数据分析和挖掘技术介绍

数据分析和挖掘挖掘应用场景介绍

数据分析和挖掘挖掘常用的算法介绍

数据分析和挖掘挖掘应用架构

数据分析和挖掘挖掘流程CRISP-DM模型介绍

数据分析和挖掘挖掘流程方法论介绍

数据特征工程构建方法论

数据分析和数据挖掘方法论

 

 

 

 

 

 

 

Spark数据分析营销案例实战

一、数据概况分析

     • 数据概况

     • 数据清洗

二、单变量分析

     • 观察样本0、1的平衡性

     • 观察均值大小

     • 可视化

三、相关性分析和可视化

四、逻辑回归模型的建立和评估

     • 模型建立

     • 模型评估

     • 模型优化

五、业务价值

六、模型管理、发布和调用

 

 

 

 

 

 

 

PySpark数据分析营销案例实战


返回上一级