[spark]总结spark ML机器学习库（pyspark.ml）

最新推荐文章于 2026-05-05 09:25:59 发布

原创

最新推荐文章于 2026-05-05 09:25:59 发布 · 2.9k 阅读

标签

#spark #ml #机器学习库

收录于

本文深入探讨了pyspark.ml库，包括特征处理、模型构建和参数调优。重点介绍了如何使用pyspark.ml.feature进行特征工程，利用pyspark.ml模型进行机器学习任务，并详细讲解了pyspark.ml.tuning模块的参数网格搜索方法，如CrossValidator和TrainValidationSplit，用于选择最佳模型参数。

一、pyspark.ml.feature特征处理

二、pyspark.ml模型

三、pyspark.ml.tuning参数遍历

一、pyspark.ml.feature特征处理

	方法	描述	功能
连续特征离散化	Binarizer	将连续值划分为二元离散数值	连续特征离散化
	Bucketizer	将连续值划分为多元离散数值	连续特征离散化
	QuantileDiscretizer	分位数离散化，将连续型特征转换为分级类别特征，每个类别的元素个数大致相等	连续特征离散化
特征选择	ChiSqSelector	根据卡方检验，选取类别标签主要依赖的特征	特征选择
	PCA	主成分分析，找出特征中最重要的特征，进行降维	特征提取、数据降维
	VectorSlicer	从原来的特征向量中切割一部分，形成新的特征向量	特征选择
特征归一化