Spark scala中将Array(Row)转化为DataFrame（另一种抽样方式）

最新推荐文章于 2026-05-18 06:08:31 发布

原创

最新推荐文章于 2026-05-18 06:08:31 发布 · 8.1k 阅读

收录于

当前文章被以下社区和专栏收录：

1.spark DataFrame常规的采样方式——sample()

由于scala中对DataFrame 方式为 sample() 方法

sample : 采样
采样变换根据给定的随机种子，从RDD中随机地按指定比例选一部分记录，创建新的RDD。采样变换在机器学习中可用于进行交叉验证。
语法
def sample(withReplacement: Boolean, fraction: Double, seed: Long = Utils.random.nextLong): RDD[T]

参数
withReplacement : Boolean , True表示进行替换采样，False表示进行非替换采样
fraction : Double, 在0~1之间的一个浮点值，表示要采样的记录在全体记录中的比例
seed ：随机种子


var sample_frac = (extract_nums/result_data.count().toFloat).formatted("%.2f").toFloat
result_data_sample = result_data.sample(false, sample_frac)

这样就有问题：
1.当sample_frac采样率✖️数据总条数出现小数时采样数据总条数未必等于例子中的extract_nums(采样条数)
2.当采样率过小或者采样率*数据总条数<1 时采样数据为空

所以今天介绍一种全新的采样方式，可以采样出等于extract_nums(采样条数) 的数据

利用take(n)构造Row进而构造DataFrame(相对比较复杂)

take：无序采样
使用take

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

楓尘林间

关注关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Spark 3.0 - 10.Ml 常用 Sample 采样方法

BITDDD小栈

12-05

1129

Spark 3.0 ML 常用采样方法。

Spark之Dataframe

博客

01-13

662

创建DataFrame, customers, products, sales 创建下面三个dataframe (df_customers, df_products, df_sales) 1）创建df_customers： customers = [(1,'James',21,'M'), (2, "Liz",25,"F"), (3, "John", 31, "M"),\ (4, "Jennifer", 45, "F"), (5, "Robert", 41, "M"), (6, "Sandr...

参与评论您还未登录，请先登录后发表或查看评论

别只改meta了！Three.js项目安全加载本地资源的三种实战方案（含Vite/Vue配置）

热门推荐

yyoc97的专栏

10-25

1万+

前言 spark中因为Rdd和Dataframe的一些分装函数处理，经常会遇到类型的相关转换，今天就记录些常见的几种类型转换。 Array => Row val arr = Array("aa/2/cc/10","xx/3/nn/30","xx/3/nn/20") // val row = Row.fromSeq(arr) val row = RowFactory.create(arr) Row => Array val a:Array[Any] = row.toSeq.toArray 有时

scala spark 手动构建DataFrame复杂类型，arrayType,StructType

偏执狂才能生存！热忱比专业知识更重要.........

07-29

7531

scala spark 手动构建DataFrame复杂类型，arrayType,StructType package biReportJob.zt import org.apache.log4j.{Level, Logger} import org.apache.spark.rdd.RDD import org.apache.spark.sql.functions._ import org.a...

spark DataFrame使用collection()方法和groupBy()、isDefined

Buevara的博客

04-19

1557

collect() 把 dataframe格式转化为 Array[Row]格式以movieLens数据前7行位例 userdata.show() 部分数据展示： +------+-------+------+----------+ |userId|movieId|rating| timestamp| +------+-------+------+----------+ | 1| 2| 3.5|1112486027| | 1| 29| 3.5|111248467

spark java集合转scala_Spark Scala：将Row的RDD转换为Basket的RDD

weixin_42442653的博客

02-25

363

我正在尝试运行FPGrowth但实际上我在输入类型的问题上遇到了麻烦 . 鉴于代码：%scala// association rule learning for OFFLINE with FPGrowth from MLLibimport org.apache.spark.mllib.fpm.FPGrowthimport org.apache.spark.rdd.RDDimport org.apa...

spark sql 类型转换array_Spark SQL，如何将 DataFrame 转为 json 格式

weixin_39581995的博客

12-21

577

今天主要介绍一下如何将 Spark dataframe 的数据转成 json 数据。用到的是 scala 提供的 json 处理的 api。用过 Spark SQL 应该知道，Spark dataframe 本身有提供一个 api 可以供我们将数据转成一个 JsonArray，我们可以在 spark-shell 里头举个栗子来看一下。import org.apache.spark.sql.Spar...

SparkSQL把rdd转化为DataFrame时，想要把整个数组的值都放到Row中则么办?

Lu_Xiao_Yue的博客

11-19

5728

在使用sparkSQL，有时想要把rdd中的数据转换成DataFrame，RDD中的的数据可能时Array类型，或者是想要把数组类型中的所有元素放到Row中，当数组中的元素特别多时，可能就会变得更加麻烦，其实Row的Object中为我们提供了一个很好的方法，就是merge方法，话不多说，直接看代码吧 Object Demo { def main(args: Array[String]): Un...

【Spark】变长数组转换为Row对象（RDD to DataFrame）

qq_26921849的博客

03-19

4950

在RDD转换为DataFrame时，若RDD每个元素长度未知时，可将RDD每个元素转换为Seq，利用Row.fromSeq方法将Seq转换为Row，进而转换为DataFrame。

spark dataFrame自定义函数聚合array

mACID_lys的博客

10-25

904

spark2.4scala2.11准备环境准备数据//造数据需求//需求结果// all_v_list 不需要排序去重即可自定义函数// 聚合函数输入数据结构// 缓存区数据结构，用于计算// 聚合函数输出值数据结构// 聚合函数是否是幂等的，即相同输入是否总是能得到相同输出// 初始化缓冲区}// 给聚合函数传入一条新数据进行处理}else{}}// 合并聚合函数缓冲区（分布式）}// 计算最终返回结果list}}注册函数//注册函数测试"""|select。

Spark SQL，如何将 DataFrame 转为 json 格式

qq_43713668的博客

12-07

693

今天主要介绍一下如何将 Spark dataframe 的数据转成 json 数据。用到的是 scala 提供的 json 处理的 api。　　　　用过 Spark SQL 应该知道，Spark dataframe 本身有提供一个 api 可以供我们将数据转成一个 JsonArray，我们可以在 spark-shell 里头举个栗子来看一下。　　　　import org.apache.sp...

spark将rdd转为string_scala - DataFrame到RDD [(String，String)]的转换

weixin_34138014的博客

01-14

1223

我想在数据块中将org.apache.spark.sql.DataFrame转换为org.apache.spark.rdd.RDD[(String, String)]。有人能帮忙吗？背景(也欢迎更好的解决方案)：我有一个kafka流(经过一些步骤后)成为一个2列数据帧。我想把它放到redis缓存中，第一列作为键，第二列作为值。更具体地说，输入的类型是：lastContacts: org.apach...

Spark ArrayType Column on DataFrame & SQL

wuyy0224的博客

10-07

509

Spark (array) is a collection data type that extends class, In this article, I will explain how to create a DataFrame ArrayType column using Spark SQL org.apache.spark.sql.types.ArrayType class and applying some SQL functions on the array column using Sc

spark sql 类型转换array_将特征的Spark向量转换为数组

weixin_29133981的博客

01-13

1376

我有一个使用Spark的VectorAssembler打包成矢量向量的特征列，如下所示。 data是输入数据帧(类型spark.sql.DataFrame)。将特征的Spark向量转换为数组val featureCols = Array("feature_1","feature_2","feature_3")val featureAssembler = new VectorAssembler()....

arrylist spark_Spark error when convert JavaRDD to DataFrame: java.util.Arrays$ArrayList is not a va...

weixin_26763955的博客

12-28

482

I encountered the same issue several days ago and the only way to solve this problem is the use an array of array. Why ? Here is the response:An ArrayType is wrapper for Scala Arrays which correspond ...

python iloc 只取数值_python—如何从 DataFrame 中提取值（我想要的是int而不是row）并对其进行简单计算？...

weixin_39789370的博客

12-11

1548

编辑我没有注意到您询问的是python，我用scala编写了代码，但是原则上解决方案应该是相同的，您应该只使用python apidataframe本质上是一个 DataSet 合的包装器。分发，但仍然是一个集合。有一个org.apache.spark.sql.dataset collect操作，它实际上是将该集合展开为一个简单的scala array。当您有一个 array时，您可以简单地从中获...