课程时长
1天(6小时/天)。
课程大纲
第1章 pySpark使用技巧介绍
spark sdf和pandas pdf相互转化
sdf构建自定义函数时优先使用pandas_udf而不是udf
SCALAR
GROUPED_MAP
GROUPED_AGG
向UDF传入其他参数
使用Java UDF
分发文件至spark的各个worker
第2章 pySpark机器学习算法API
数据读取与探查
特征处理
逻辑回归
决策树
随机森林
梯度提升树
朴素贝叶斯
支持向量机
第3章 使用pyspark进行机器学习实战--回归
DecisionTreeRegressor
GBTRegressor
GeneralizedLinearRegression
LinearRegression
RandomForestRegressor
第4章 使用pyspark进行机器学习实战--分类
LogisticRegression
DecisionTreeClassifier
RandomForestClassifier
GBTClassifier
NaiveBayes
第5章 使用pyspark进行机器学习实战--聚类
BisectingKMeans
KMeans
GaussianMixture
第6章 婴儿出生率预测实战
加载数据
创建转换器
创建预测器
创建管道
训练模型
使用BinaryClassificationEvaluator对模型评估
模型保存与调用