train_test_split 数据集划分

最新推荐文章于 2026-04-04 07:05:07 发布

原创最新推荐文章于 2026-04-04 07:05:07 发布 · 6.7k 阅读

4 ·

本内容遵循CC 4.0 BY-SA版权协议

收录于

python数据分析专栏收录该内容

17 篇文章

订阅专栏

本文介绍Python中如何利用sklearn库的train_test_split函数来划分数据集为训练集和测试集，以便评估机器学习模型的性能。通过具体代码示例展示了如何设置不同的随机种子值来进行多次划分。

python中自带了数据集划分的函数 train_test_split()，通过from sklearn.model_selection import train_test_split导入库函数。train_test_split() 函数需要常用的4个参数：数据集的特征列、数据集的label列、期望划分测试集的大小、划分的随机种子值。返回4个结果分别是：训练集的特征列、测试集的特征列、训练集的label列、测试集的label列。

在机器学习的过程中，为了测试模型的性能，需通过将数据集划分为训练集和验证集，然后对验证集进行预测，评估。此时，如下代码与cv函数的功能是一样的。

from sklearn.model_selection import train_test_split

for i in range(10):

X_train, X_test, Y_train, Y_test = train_test_split(train[predictors], train['label'], test_size=0.4,random_state=i+1)

clf.fit(X_train,Y_train) #训练模型
pre=clf.predict(X_test)#预测