4006-998-758
3000+课程任你选择
PySpark数据建模
研发学院 PySpark数据建模实战 开课时间:2022-05-17
熊磊光

现任某大数据公司技术总监

曾任华为软件工程师

中国农业大学 信电学院自动化硕士

10年以上软件开发和系统架构设计工作经验,历任软件工程师、高级工程师、技术经理、部门经理、架构师。现公司致力于开发全生命周期的大数据存储,以及大数据平台产品,目前集中在运营商、金融、归档等行业和业务方向。从事技术培训工作5年以上,主讲软件开发和大数据相关技术课程,能够运用 Python, Java, C++等语言,精通Spark、Hadoop, Hive, Map-Reduce 分布式计算系统设计算法,主持和参与过多个大型开发项目,具备架构设计、软件开发和数据分析挖掘能力。具备培训课程开发和组织能力。


查看老师详情
课程内容

课程时长


1天(6小时/天)。


课程大纲 


第1章   pySpark使用技巧介绍

      spark sdf和pandas pdf相互转化

      sdf构建自定义函数时优先使用pandas_udf而不是udf

      SCALAR

      GROUPED_MAP

      GROUPED_AGG

      向UDF传入其他参数

      使用Java UDF

      分发文件至spark的各个worker

第2章  pySpark机器学习算法API

      数据读取与探查

      特征处理

      逻辑回归

      决策树

      随机森林

      梯度提升树

      朴素贝叶斯

      支持向量机

第3章  使用pyspark进行机器学习实战--回归

      DecisionTreeRegressor

      GBTRegressor

      GeneralizedLinearRegression

      LinearRegression

      RandomForestRegressor

第4章  使用pyspark进行机器学习实战--分类

      LogisticRegression

      DecisionTreeClassifier

      RandomForestClassifier

      GBTClassifier

      NaiveBayes

第5章  使用pyspark进行机器学习实战--聚类

      BisectingKMeans

      KMeans

      GaussianMixture

第6章  婴儿出生率预测实战

      加载数据

      创建转换器

      创建预测器

      创建管道

      训练模型

      使用BinaryClassificationEvaluator对模型评估

      模型保存与调用

返回上一级