语义分割学习系列（三）cityscapes数据集介绍

最新推荐文章于 2026-05-02 20:15:30 发布

原创

最新推荐文章于 2026-05-02 20:15:30 发布 · 3.3w 阅读

233

标签

#Cityscapes #gtFine #leftImg8bt #classmap

Cityscapes数据集是城市街道场景的语义理解图片数据集，包含5000张高质量像素级注释图像及20000张粗糙标注图像。数据集分为训练、验证和测试集，涵盖19个类别，适用于语义分割任务。

前言

常见的语义分割数据集有VOC2012, MS COCO以及Cityscapes等。今天我们先来介绍Cityscapes数据集

简介

Cityscapes是关于城市街道场景的语义理解图片数据集。它主要包含来自50个不同城市的街道场景，拥有5000张在城市环境中驾驶场景的高质量像素级注释图像（其中 2975 for train，500 for val,1525 for test，共有19个类别）；此外，它还有20000张粗糙标注的图像(gt coarse)。

从我目前了解来说，一般都是拿这5000张精细标注(gt fine)的样本集来进行训练和评估的。当然，还有一个策略就是，先对粗糙标注的样本集进行一个简单的训练，然后再基于精细标注的数据集进行final training。这里我们只谈gt fine样本集的训练。

精细样本集下载，可直接从这个百度盘下载：https://pan.baidu.com/s/1w3W_dQBUiHcwkLOtbSJ1Tg 密码：1bln

当然，也可以去其官网注册来获得完整数据集：https://www.cityscapes-dataset.com/

精细数据集介绍

从百度盘下载后，根目录cityscapes的内容如下：

样本数据都在红框里面的两个文件夹内。 preprocess.py主要是用来生成这些txt文件（比如将相关样本图片的路径和文件名收集起来放到一个对应的txt文件里面），而read_depth.py主要是来确定图片的像素深度是16还是8bit。

红框里面的leftImg8bit文件夹有三个子目录：test， train以及val，分别为测试集，训练集以及验证集图片。这三个子目录的图片又以城市为单元来存放。这里解释下leftImg8bit的含义，因为cityscapes实际上来源于双摄像头拍摄的立体视频序列，所以这里的leftImg就是来自于左摄像头的图片，而8bit意味着该图片集都为每个分量为8bit的24位深度的图片。

对样本图片对应的就是标注目录，即gtFine，显然这里的fine就是精细标注的意思。gtFine下面也是分为train， test以及val，然后它们的子目录也是以城市为单位来放置图片。这些都是和leftImg8bit的一一对应。不同的是，在城市子目录下面，每张样本图片对应有6个标注文件，如下所示：