目录
一、pyspark.ml.feature特征处理
| 方法 | 描述 | 功能 | |
| 连续特征离散化 | Binarizer | 将连续值划分为二元离散数值 | 连续特征离散化 |
| Bucketizer | 将连续值划分为多元离散数值 | 连续特征离散化 | |
| QuantileDiscretizer | 分位数离散化,将连续型特征转换为分级类别特征,每个类别的元素个数大致相等 | 连续特征离散化 | |
| 特征选择 | ChiSqSelector | 根据卡方检验,选取类别标签主要依赖的特征 | 特征选择 |
| PCA | 主成分分析,找出特征中最重要的特征,进行降维 | 特征提取、数据降维 | |
| VectorSlicer | 从原来的特征向量中切割一部分,形成新的特征向量 | 特征选择 | |
| 特征归一化 |

本文深入探讨了pyspark.ml库,包括特征处理、模型构建和参数调优。重点介绍了如何使用pyspark.ml.feature进行特征工程,利用pyspark.ml模型进行机器学习任务,并详细讲解了pyspark.ml.tuning模块的参数网格搜索方法,如CrossValidator和TrainValidationSplit,用于选择最佳模型参数。
8905

被折叠的 条评论
为什么被折叠?



