本文将介绍下载葡萄牙语与英语翻译ted_hrlr_translate数据集,并转为CSV文件方法
本文将介绍如下内容:
- 下载ted_hrlr_translate数据集
- 转换为CSV文件
一、下载ted_hrlr_translate数据集
1. 进入理解语言的 Transformer 模型网址
2. 下载数据
跑完如下节点

3. 放置数据文件并命名
基于如下目录格式存放:

4. 加载数据集
# pip install tensorflow -i https://pypi.tuna.tsinghua.edu.cn/simple
# pip install tensorflow-datasets
import tensorflow_datasets as tfds
splits = ['train', 'validation']
ds = tfds.load(
'ted_hrlr_translate/pt_to_en', # 正确的名字(不是路径)
split=splits,
as_supervised=True,
download=False, # 禁止重新下载
data_dir='/XXX/Transformer/Datas'
)
二、转换为CSV文件
1. 转csv文件
import csv
with open("./ted_pt_en_train.csv", "w", encoding="utf-8", newline="") as f:
writer = csv.writer(f, delimiter="\t")
for pt, en in tfds.as_numpy(ds[0]):
writer.writerow([pt.decode("utf-8"), en.decode("utf-8")])
with open("./ted_pt_en_test.csv", "w", encoding="utf-8", newline="") as f:
writer = csv.writer(f, delimiter="\t")
for pt, en in tfds.as_numpy(ds[1]):
writer.writerow([pt.decode("utf-8"), en.decode("utf-8")])

1377

被折叠的 条评论
为什么被折叠?



