课程信息
基于开源大数据平台数据分析和挖掘实训课程,该是一个理论与实践相结合的课程,阐述大数据主流的系统架构,数据分析和挖掘的技术、流程。
本课程包含了两个真实数据分析和挖掘实战案例,通过具体的案例了解大数据平台常用的数据分析和挖掘技术。
本课程是目前基于大数据平台数据分析和挖掘的主流课程,涵盖了基于大数据平台数据分析和挖掘的整个流程和技术。
课程特色
以主流大数据系统的原理、架构、部署、运维为脉络,分别介绍Hadoop,Spark,Kafka,HBase等主流大数据平台系统;
通过经典机器学习模型,以Spark MLlib为主要介绍框架,揭示机器分类,回归,聚类,推荐等算法的原理与实践,并深入分布式算法的原理与工作机制,机器学习算法与模型优化。
课程收益
◆ 深度了解主流大数据系统的系统架构,组件交互,及其内核工作与运行机制;
◆ 了解大数据平台常用的以希望数据分析和挖掘的技术,如:Hadoop、Hive、Spark等
◆ 深度了解机器学习算法,及其Spark MLlib基本算法原理,以及机器学习算法实践与优化。
◆ 了解目前主流的数据分析和挖掘平台
◆ 了解基于Python数据分析和挖掘的技术栈
◆ 能够使用Python基于Spark额mllib上面进行数据分析和挖掘。
课程对象
◆ 具有1年及以上工作经验,并期望掌握大数据系统与机器学习算法,大数据系统架构,机器学习算法运行机制的研发工程师,算法工程师,及其架构师。
◆ 利用大数据平台数据分析挖掘的同学
◆ 了解基于大数据平台常用数据分析和挖掘的流程和方法
课程基础
至少熟悉掌握如下一名程序设计语言:Java,Python;
了解数据分析和挖掘的相关概念。
课程大纲
课程模块 | 课程主题 | 主要内容 | 案例和演示 |
第一天 |
Spark技术栈介绍 | Spark-Core介绍 Spark SQL介绍 Spark Streaming介绍 Spark mllib介绍 Spark GraphX介绍 PySpark介绍 SparkR介绍 Spark3.0重要特性介绍 | |
Spark编程模型和解析 | Spark的编程模型 Spark编程模型解析 Partition实现机制 RDD的特点、操作、依赖关系 Transformation RDD详解 Action RDD详解 Spark的累加器详解 Spark的广播变量详解 Spark容错机制 lineage和checkpoint详解 Spark的运行方式 Spark的Shuffle原理详解 Sort-Based原理 Hash-Based原理 Spark Partition详解 | ||
Spark SQL原理和实践 | Spark SQL原理 Spark SQL的Catalyst优化器 Spark SQL内核 Spark SQL和Hive连接 DataFrame和DataSet架构 Fataframe、DataSet和Spark SQL的比较 SparkSQL parquet格式实战 Spark SQL的实例和编程 Spark SQL的实例操作demo Spark SQL的编程 Spark SQL学员实操训练 | ||
Spark Streaming详解 | Spark Streaming原理 Spark Streaming的应用场景 Windows 窗口操作 DStream详解 Spark SQL on Spark Streaming详解 Structured Streaming介绍 Structured Streaming的水印操作 Structured Streaming+kafka应用实战 流式任务的痛点和注意点 流式任务数据延迟问题 流式任务作业性能问题 流式任务任务常见的处理方式 | ||
Day2 上午
Spark优化实战
|
Spark优化实战 | 小文件优化 文件类型优化 常用算子比较和优化 RDD存储序列化 Spark DAG原理和优化 GC垃圾回收分析 减少任务使用内存 广播大变量 数据本地化 Spark shuffle原理和优化 Spark内存模型设计原理 Spark堆内内存管理 Spark堆外内存管理 Spark任务执行过程分析和资源占用详解 sparkSQL核心配置参数详解 | |
Day2 下午 数据分析和数据挖掘方法论和Spark数据分析实战 | 数据分析和数据挖掘方法论 | 数据分析和挖掘技术介绍 数据分析和挖掘挖掘应用场景介绍 数据分析和挖掘挖掘常用的算法介绍 数据分析和挖掘挖掘应用架构 数据分析和挖掘挖掘流程CRISP-DM模型介绍 数据分析和挖掘挖掘流程方法论介绍 数据特征工程构建方法论 | 数据分析和数据挖掘方法论 |
Spark数据分析营销案例实战 | 一、数据概况分析 • 数据概况 • 数据清洗 二、单变量分析 • 观察样本0、1的平衡性 • 观察均值大小 • 可视化 三、相关性分析和可视化 四、逻辑回归模型的建立和评估 • 模型建立 • 模型评估 • 模型优化 五、业务价值 六、模型管理、发布和调用 |
PySpark数据分析营销案例实战 |