主要翻译自 官网 pyspark 2.3.1 文档
https://spark.apache.org/docs/2.3.1/api/python/pyspark.html#pyspark.RDD
一 pyspark.RDD 保存hdfs文件
①saveAsHadoopDataset(conf, keyConverter=None, valueConverter=None)
输入RDD[(K,V)]形式数据,使用老的hadoop API接口存储在hdfs上数据;
内容需要被convert转化,默认转化器是 org.apache.spark.api.python.JavaToWritableConverter;
②saveAsHadoopFile(path, outputFormatClass, keyClass=None, valueClass=None, keyConverter=None, valueConverter=None, conf=None, compressionCodecClass=None)
输入RDD[(K,V)]形式数据,使用老的hadoop API接口存储在hdfs上数据;
不同于上面的是可以自行推断数据类型进行转换,也可以指定压缩模式;

本文详细介绍了PySpark中RDD和DataFrame的保存方法,包括各种存储API的使用及区别,如saveAsHadoopDataset、saveAsNewAPIHadoopFile、saveAsPickleFile、saveAsTextFile等RDD方法,以及DataFrame的writer对象的各种save方式,如csv、json、orc、parquet等。同时,讨论了不同存储格式和模式的选择,如overwrite、append等。
566

被折叠的 条评论
为什么被折叠?



