大家读完觉得有帮助记得关注和点赞!!!
摘要
遥感对于灾害监测至关重要,然而现有数据集缺乏时序图像对和详细的文本标注。虽然当前资源以单时相影像为主,但它们无法捕捉随时间变化的动态灾害影响。为了弥补这一空白,我们引入了遥感变化描述(RSCC)数据集,这是一个大规模基准数据集,包含 62,315 对灾前/灾后图像对(涵盖地震、洪水、野火等),并配有丰富的、类人的变化描述。通过弥合遥感数据中的时间和语义鸿沟,RSCC 能够为灾害感知的双时相理解提供鲁棒的视觉-语言模型训练和评估。我们的结果突显了 RSCC 促进详细灾害相关分析的能力,为在遥感领域实现更准确、可解释和可扩展的视觉-语言应用铺平了道路。代码和数据集可在 https://github.com/Bili-Sakura/RSCC 获取。
图 1: RSCC 示例。
1 引言
时序遥感影像对于监测动态地球过程不可或缺,尤其是需要快速响应和分析的灾害事件。时序遥感数据已被证明在支持救灾规划和响应方面不可或缺 (Rahnemoonfar et al., 2023, 2021; Gupta et al., 2019)。然而,数据中固有的复杂时空关系给有效分析和解释带来了重大挑战。
多模态数据建模的进步使得通用的多模态大语言模型(MLLMs) (Anthropic AI, 2024a, b; OpenAI, 2024, 2023; Gemini Team, 2024b, a; Llama Team, 2024; Qwen Team, 2023; Wang et al., 2024d; Meta AI,) 成为可能,这些模型可以通过自然语言灵活指定执行各种自然图像解释任务。具体来说,以交错方式训练的 MLLMs 在图像间具有深刻的视觉-语义理解能力 (Chen et al., 2024; Li et al., 2024a; Mistral AI, 2024; Wang et al., 2024c; Xue et al., 2024; Li et al., 2024b)。这些模型在多图像推理 (Meng et al., 2024; Wang et al., 2024b; Zhao et al., 2024) 和视频理解 (Liu et al., 2024c; Chandrasegaran et al., 2024; Cai et al., 2024; He et al., 2024; Fu et al., 2024) 方面取得了巨大成功,但它们在时序遥感图像理解方面的能力仍未得到充分探索。
现有的遥感图像-文本数据集通常专注于单时相影像,缺乏理解动态事件(尤其是在灾害相关场景中)所必需的时间细节,如表 1 所示。尽管存在多时相数据集(例如 fMoW (Christie et al., 2018)、SpaceNet 7 (Van Etten et al., 2021)、S2Looking (Shen et al., 2021)、QFabric (Verma et al., 2021) 和 SpaceNet 8 (Hänsch et al., 2022)),但它们都没有提供关于场景如何随时间变化的丰富文本描述。然而,由于缺乏带有详细文本标注的高质量双时相数据集,它们在灾害特定时序分析方面的潜力仍未开发。现有的遥感数据集要么专注于通用的土地利用变化,要么提供缺乏灾害背景的简短描述。例如,LEVIR-CC (Liu et al., 2022b) 标注了城市发展但忽略了灾害特定细节,而 Dubai-CCD (Hoxha et al., 2022b) 提供的简短描述未能捕捉细微的损害程度或基础设施转变。
表 1: 与现有遥感文本-图像数据集的比较。
|
数据集 |
年份 |
#图像 (像素) |
字幕 |
时序 |
#描述 (平均长度) |
细节 |
|---|---|---|---|---|---|---|
|
UCM-Captions (Qu et al., 2016) |
2016 |
2,100 (1.0B) |
10,500 (12) |
✗ |
✗ | |
|
RSICD (Lu et al., 2018) |
2018 |
10,921 (0.5B) |
54,605 (12) |
✗ |
✗ | |
|
fMoW (Christie et al., 2018) |
2018 |
1M (437.0B) |
N/A |
✗ |
✓ | |
|
SpaceNet 7 (Van Etten et al., 2021) |
2021 |
2,389 (2.6B) |
N/A |
✗ |
✓ | |
|
S2Looking (Shen et al., 2021) |
2021 |
5,000 (5.0B) |
N/A |
✗ |
✓ | |
|
QFabric (Verma et al., 2021) |
2021 |
2,520 (245.1B) |
N/A |
✗ |
✓ | |
|
SpaceNet 8 (Hänsch et al., 2022) |
2022 |
2,576 (3.0B) |
N/A |
✗ |
✓ | |
|
LEVIR-CC (Liu et al., 2022b) |
2022 |
20,154 (1.2B) |
50,385 (40) |
✓ |
✓ | |
|
Dubai-CCD (Hoxha et al., 2022b) |
2022 |
1,000 (<0.1B) |
2,500 (35) |
✓ |
✓ | |
|
RSICap (Hu et al., 2023) |
2023 |
2,585 (0.6B) |
2,585 (60) |
✓ |
✗ | |
|
RS5M (Zhang et al., 2024) |
2024 |
5M (-) |
5M (49) |
✓ |
✗ | |
|
VRSBench (Li et al.,) |
2024 |
29,614 (7.8B) |
29,614 (52) |
✓ |
✗ | |
|
WHU-CDC (Shi et al., 2024) |
2024 |
14,868 (1.9B) |
37,170 (-) |
✓ |
✓ | |
|
XLRS-Bench (Wang et al., 2025) |
2025 |
934 (67.5B) |
934 (379) |
✓ |
✗ | |
|
RSCC (Ours) |
2025 |
124,702 (32.7B) |
62,351 (72) |
✓ |
✓ |
为了应对这些挑战,我们引入了遥感变化描述(RSCC)数据集,这是第一个为灾害感知的双时相理解定制的大规模数据集。RSCC 通过以下方式弥合了关键空白:
-
大规模事件驱动数据集:包含来自 31 个全球事件的 62,351 对灾前/灾后图像对,涵盖地震、洪水、野火等。
-
专用于遥感变化描述的模型:为了验证我们数据集的鲁棒性,我们基于 RSCC 数据集训练了一个专用于遥感变化描述的 MLLM。基准测试结果表明,RSCC 数据集增强了通用 MLLMs 在遥感时序图像理解方面的能力。
-
变化描述基准:我们基于 RSCC 数据集开发了一个变化描述基准,并评估了几种最先进的时序 MLLMs 的性能。
本文的其余部分组织如下。在第 2 节中,我们详细介绍了 RSCC 的构建过程,包括数据源和描述生成流程。第 3 节介绍了在 RSCC 数据集上训练的我们专用的遥感变化描述模型。在第 4 节中,我们在 RSCC 上对现有时序 MLLMs 的变化描述能力进行了基准测试,并展示了定性和定量结果。
2 流程
为了构建我们的 RSCC 数据集,我们采用了一个多模态推理模型 - Qwen QvQ-Max (Qwen Team, 2025b) - 以及现有的人工标签来生成高保真度的描述。QvQ-Max 是最新的专有 MLLM,能够进行视觉推理,在零样本遥感图像变化描述方面展现出卓越的能力(见附录 A)。与优先基于识别的输出的传统 MLLMs 不同,QvQ-Max 利用结构化推理过程来推断时空关系 Bi et al. (2025)。QvQ-Max 的描述生成过程每千对图像大约花费 5 美元。整体数据集构建流程如图 2 所示。
图 2: RSCC 数据集构建流程示意图。我们从标签中提取建筑物损坏信息,并使用精心设计的指令来提示具有推理能力的 QvQ-Max,并根据带有建筑物损坏信息的输入图像生成变化描述。
2.1 数据源
在本研究中,我们利用了 xBD 数据集 (Gupta et al., 2019) 和 EBD 数据集 (Wang et al., 2024f),它们均来自 MAXAR OpenData 计划。图像从 xBD 原始的 1024×1024 无重叠裁剪为 512×512,而 EBD 保持其 512×512 分辨率。整个 RSCC 数据集包含 62,351 对双时相灾前和灾后图像对(xBD: 44,136;EBD: 18,215),时间跨度覆盖 31 个事件,灾害类型包括地震、洪水(飓风)、海啸、风暴(飓风、龙卷风)、火山喷发和野火。完整事件列表见附录 A。
2.2 属性提取
xBD 数据集包含带有损害评估标签的建筑物边界框的人工标注。损害评估基于联合损害尺度 (Gupta et al., 2019),该尺度是在 NASA 和加利福尼亚空军国民警卫队等组织的贡献下开发的。该尺度旨在评估各种灾害场景下卫星图像中的建筑物损坏情况,为从无损坏到完全摧毁的不同级别提供详细描述。
2.3 提示构建
我们精心设计了以下指令来提示 QvQ-Max Qwen Team (2025b) 创建详细的双时相图像变化描述。我们将建筑物损坏标签转换为上下文辅助信息。Shtedritski 等人 Shtedritski et al. (2023) 发现,通过应用基于标记的视觉提示工程,可以在视觉-语言模型(如 CLIP Radford et al. (2021))中解锁有效行为,甚至无需任何训练样本。这种方法在零样本指代表达式理解任务中取得了最先进的结果。受此想法启发,我们构建建筑物损坏掩码作为 MLLMs 的视觉提示。
QvQ-Max 的提示由视觉输入和文本输入(指令) 组成(图 2)。视觉输入由原始事件前图像和带注释的事件后图像组成,其中建筑物边界框以表示损坏等级的不同颜色添加到事件后图像上。文本输入格式为 <任务指令> <灾害描述> <建筑物损坏细节>和 <输出格式>。完整的视觉提示模板见附录 A。
2.4 QvQ-Max 推理
给定输入提示,我们调用阿里巴巴云的 QvQ-Max (qvq-max-2025-03-25) API 来自动生成标注。对于 xBD 数据集的变化描述生成,我们将提示固定为第 2.3 节中讨论的提示,该提示在实证研究中产生了最佳结果。由于 EBD 数据集不包含人工标注,我们使用朴素提示:<pre_image><post_image>您将看到同一区域在 {disaster_type} 自然灾害事件发生前后拍摄的两张卫星图像。请以新闻风格用几句话描述发生的变化。我们没有观察到来自两个数据集的描述存在指令误遵循或无效输出格式的问题。
2.5 后校正和人工验证
为确保 QvQ-Max 生成描述的可靠性,我们实施了一个两阶段的后校正过程。首先,Qwen2.5-Max (Qwen et al.,) 系统性地强制执行元数据对齐,通过纠正灾害类型的不一致(例如,解决 "hurricane" 和元数据指定的 "flooding" 之间的不匹配)和损坏描述(例如,根据建筑物标注将 "minor damage" 修改为 "destroyed")。这个自动化阶段将灾害类型与元数据的一致性从 98.7% 提高到 100.0%。其次,RSCC 描述的一个子集(988 个样本)由三位专家使用 0/1 二元评分标准进行手动验证,评估四个标准:灾害类型准确性、损坏细节完整性、事实一致性和清晰度。92.3% 的采样描述通过了验证,注释者间一致性为 89.3%(Cohen’s κ)。未通过的描述通过具有细化规则的自动化流程重新处理,确保了最终数据集的一致性。校正规则和评估协议的完整细节在附录 A 中提供。
3 RSCC 数据集
3.1 概述
我们的 RSCC 数据集总共包含 62,315 对双时相图像对,每对都标注有详细的变化描述。这些图像对捕捉了一系列真实世界的灾害场景,反映了多样化的地理位置、灾害类型和严重程度。通过提供丰富的场景变化文本描述,RSCC 旨在促进大型视觉-语言模型的高级时序推理和描述生成任务。这些描述的统计摘要详见图 3。
(a) 词数分布。
(b) 描述词云。
图 3: RSCC 的统计信息。
3.2 用于视觉-语言模型训练的 RSCC
为了促进视觉-语言模型训练,我们将 RSCC 数据集分为两个部分:一个训练集包含来自 xBD 和 EBD 中 31 个不同事件的 61,327 对图像对,一个测试集包含来自 xBD 中 19 个不同事件的 988 对图像对。我们使用训练集在 Qwen2.5-VL 7B (Qwen Team, 2025a) 上进行了全参数微调,历时 2 个周期,batch_size=1,在配备 2 个 NVIDIA H800 GPU 的单节点上进行。我们将 LLM 主干和视觉编码器的学习率分别初始化为 1e-6 和 1e-5,并采用余弦学习率衰减计划进行优化。对于图像输入,我们将 RSCC 的原生分辨率保持为 512×512,作为最大像素输入和最小像素输入。训练过程总共花费了 40 GPU 时钟小时。
4 基准评估
4.1 实验设置
基线模型。
对于遥感变化描述,我们 benchmark 了支持多图像输入的中等规模开源 MLLMs(参数少于 13B),包括 LLaVA-NeXT-Interleave (Li et al., 2024b)、xGen-MM2 (BLIP-3) (Xue et al., 2024)、LLaVA-OneVision (Li et al., 2024a)、Qwen2-VL (Wang et al., 2024c)、Pixtral (Mistral AI, 2024)、Phi-4-Multimodal (Microsoft, 2025)、Kimi-VL (Kimi Team, 2025) 和 InternVL 3 (Zhu et al., 2025)。我们还添加了两个专用的遥感变化描述模型,即 TEOChat (Irvin et al., 2024) 和 CCExpert (Wang et al., 2024e)。
评估指标。
对于模型评估,我们使用 n-gram 重叠指标(包括 ROUGE (Lin, 2004) 和 METEOR (Banerjee and Lavie, 2005))来比较文本相似性。虽然上述度量在图像描述工作中常被报告,但我们发现它们在衡量长文本的语义相似性方面是次优的。因此,我们遵循 Kaggle LLM Prompt Recovery Competition 3,引入 Sentence T5-XXL Embedding (Ni et al., 2022) 和 Sharpened Cosine Similarity (Brandon, 2022) (ST5-SCS) 来获得一个完善的相似性度量。我们将锐化余弦相似性的 q=0和 p=3。
MLLMs 配置。
对于模型生成,我们使用配置中的默认采样策略。我们对 xBD 数据集使用第 2 节中的相同提示风格,并对 EBD 数据集省略建筑物损坏评估信息。我们比较了三种设置(即零样本、文本提示和视觉提示)下的变化描述性能。我们在 RSCC 测试集上进行评估。更多实现细节见附录 A。
4.2 定量结果
我们在 RSCC 数据集上的评估揭示了关于图像描述性能的三个主要见解(表 2):
-
模型规模与性能:视觉-语言模型在遥感变化描述方面的性能通常随着参数数量的增加而提高,例如 LLaVA-NeXT-Interleave (8B) 达到 46.99% ST5-SCS,Qwen2-VL (7B) 达到 45.55% ST5-SCS。然而,Kimi-VL (3B) 以 51.35% ST5-SCS 超出了预期,表明架构优化或领域特定调整可以缓解模型大小的限制。更大的专有模型如 InternVL 3 (8B) 和 Pixtral (12B) 在 ROUGE (19.87%) 和 ST5-SCS (79.18%) 等指标上占主导地位,尽管开源模型仍然是具有竞争力的基线。
表 2: RSCC 数据集子集上的详细图像描述性能(朴素/零样本结果)。Avg_L 表示生成描述的平均词数。粗体表示最佳性能,下划线表示次优性能。∗BLIP-3 和 LLaVA-OneVision 倾向于无休止地重复其答案,导致描述长度过长。
|
模型 (激活参数数量) |
N-Gram |
上下文相似性 |
Avg_L |
|---|---|---|---|
|
ROUGE(%)↑ |
METEOR(%)↑ |
ST5-SCS(%)↑ | |
|
BLIP-3 (3B) (Xue et al., 2024) |
4.53 |
10.85 |
44.05 |
|
Kimi-VL (3B)(Kimi Team, 2025) |
12.47 |
16.95 |
51.35 |
|
Phi-4-Multimodal (4B) (Microsoft, 2025) |
4.09 |
1.45 |
34.55 |
|
Qwen2-VL (7B)(Wang et al., 2024c) |
11.02 |
9.95 |
45.55 |
|
LLaVA-NeXT-Interleave (8B) (Li et al., 2024b) |
12.51 |
13.29 |
46.99 |
|
LLaVA-OneVision (8B)(Li et al., 2024a) |
8.40 |
10.97 |
46.15 |
|
InternVL 3 (8B) (Zhu et al., 2025) |
12.76 |
15.77 |
51.84 |
|
Pixtral (12B) (Mistral AI, 2024) |
12.34 |
15.94 |
49.36 |
|
CCExpert (7B) (Wang et al., 2024e) |
7.61 |
4.32 |
40.81 |
|
TEOChat (7B)(Irvin et al., 2024) |
7.86 |
5.77 |
52.64 |
|
Ours (7B) |
14.99 |
16.05 |
58.52 |
-
专用模型:在遥感数据上微调的专用模型,包括 CCExpert (7B)、TEOChat (7B) 和 Ours (7B),表现出混合的结果。Ours (7B) 通过在 RSCC 上进行针对性训练,达到了 58.52% ST5-SCS,优于 Qwen2-VL (7B) 等通用模型。相比之下,CCExpert 和 TEOChat 尽管专注于该领域,但在完整性和准确性方面表现不佳,突显了处理复杂时空推理的挑战。专有模型如 Pixtral (12B) 和 InternVL 3 (8B) 设定了性能基准,而通用模型如 BLIP-3 (3B) 则受困于过长的输出长度 (Avg_L=456) 和低 ROUGE 分数 (4.53%)。
-
重复问题:BLIP-3 和 LLaVA-OneVision 容易生成重复输出。据推测,这些模型在处理遥感图像或遵循复杂指令方面存在困难。通过切换解码方法(例如,对比解码 Su et al.)以及调整生成配置 Welleck et al.,这种退化问题可能会得到缓解。
4.3 人类偏好研究
图 4: 在 RSCC 子集上,QvQ-Max(真实值)相对于所有基线模型的获胜率。
虽然语言指标可能存在偏差,但我们请专家在给定双时相图像对以及来自 xBD 数据集 Gupta et al. (2019) 的人工标注建筑物损坏掩码的情况下,从两个匿名模型输出中投票选出最佳描述。结果(图 4)显示 QvQ-Max(真实变化描述)始终优于所有基线,获胜率从 80.7%(对 InternVL3)到 99.0%(对 CCExpert)不等。虽然强大的基线如 InternVL3 (19.3% 获胜) 和中层模型(例如,Pixtral [14.6%]、Kimi-VL [12.8%])表现出中等性能,但我们的描述在捕捉对灾害响应至关重要的细粒度环境变化方面表现出更高的准确性。表现较弱的多模态基线(LLaVA-Interleave [5.2%]、Phi-4-MM [4.9%])突显了处理复杂时空推理的局限性,表明 QvQ-Max 的量化感知训练和动态上下文适应机制增强了泛化能力。这些发现验证了 QvQ-Max 作为遥感视觉-语言任务中最先进的解决方案。
4.4 推理时增强
4.4.1 利用建筑物损坏信息
通过增加建筑物损坏信息来提升变化描述结果的质量(图 5)。可以看到,辅助建筑物损坏信息增强极大地提高了变化描述的质量。我们还发现,无论模型大小如何,配备辅助信息后性能都会趋于饱和(定量结果见附录 A 中的表 3)。
图 5: RSCC (xBD: HURRICANE-FLORENCE) 上的提示增强结果。关键描述用绿色着色,错误和幻觉句子/单词用红色表示。
4.4.2 缩放校正解码
为了研究缩放校正解码策略(例如,VCD Leng et al. (2024)、DoLa Chuang et al. (2023) 和 DeCo Wang et al. (2024a))在缓解遥感变化描述中的幻觉方面的有效性,我们评估了它们对不同模型大小的 Qwen2.5-VL 和 InternVL3 的影响(图 6)。这些策略旨在使模型输出与输入尺度或上下文对齐,减少多模态推理中的不一致性。
(a) Qwen2.5-VL 的缩放校正解码
(b) InternVL3 的缩放校正解码
图 6: 缩放校正解码的比较
图 7: RSCC (xBD: HURRICANE-MATTHEW) 上的校正解码结果。
对于 Qwen2.5-VL,零样本解码在较小模型大小(3B–7B)时实现了最高的相似性分数,而 DeCo 在较大尺度(32B–72B)时逐渐缩小了差距。值得注意的是,DoLa 和 VCD 在所有大小上都表现不佳,表明它们对于复杂时空推理任务的效用有限。相比之下,InternVL3 显示零样本解码是最一致的策略,除了在 14B 时 DeCo 略微超过它之外,在其他情况下都优于替代方案。然而,即使在 38B 参数下,缩放校正方法也未能实现相对于基线性能的实质性增益。我们发现在遥感变化描述任务上使用无训练校正解码策略没有明显的提升,我们认为该任务需要复杂的视觉推理能力而不是简单的对象级检测(案例研究见图 7)。
5 相关工作
5.1 遥感变化描述模型
遥感图像变化描述(RSICC) 任务旨在生成详细准确的自然语言,以描述不同时间捕获的遥感图像中的地理空间特征变化 (Chang and Ghamisi, 2023a; Hoxha et al., 2022a)。Liu 等人 (Liu et al., 2022a) 引入了 RSICCformer,一种基于 Transformer 的方法,它结合了多个交叉编码模块来利用差异特征,将注意力集中在每个图像中的变化区域。类似地,Chg2Cap Chang and Ghamisi (2023b) 提出了一种基于 Transformer 的描述生成模型,它将图像嵌入和词嵌入之间的关系转换为描述性文本。最近的研究倾向于使用预训练的 LLM 进行语言生成。GeoLLaVA (Elgendy et al., 2024) 使用微调的预训练时序 MLLMs(即 Video-LLaVA Lin et al. (2024) 和 LLaVA-NeXT-Video Li et al. (2024b))来检测地理景观中的时序变化。CCExpert Wang et al. (2024e) 基于 LLaVA-OneVision (Li et al., 2024a) 开发,引入了一个专注于差异的集成组件。该模块旨在识别双时相图像之间的多尺度变化并将其合并到初始图像上下文中。TEOChat Irvin et al. (2024) 应用共享视觉编码器来增强 LLaVA-1.5 Liu et al. (2024b) 的时序理解能力。尽管常见的架构集成了预训练的 LLM 主干和视觉编码器,但 Diffusion-RSCC (Yu et al., 2025) 利用概率扩散模型进行 RSICC,专注于长时间跨度下的像素级差异
。
5.2 遥感变化描述数据集
结合时序和视觉-语言元素的数据集在训练模型理解和融合时序动态与语言信息方面发挥着至关重要的作用 Liu et al. (2024a)。与可以通过掩码标签轻松格式化的 VQA 数据集 Irvin et al. (2024); Elgendy et al. (2024) 不同,遥感变化描述数据集的常见做法是进一步用每对图像 5 个句子来标注现有的变化检测数据集,例如 Dubai-CCD (Hoxha et al., 2022b)、LEVIR-CC (Liu et al., 2023) 和 WHU-CDC (Shi et al., 2024)。鉴于商业 MLLMs 的泛化能力,Wang 等人 Wang et al. (2024e) 利用 GPT-4o OpenAI (2024),使用变化掩码提供的显式信息生成详细的变化描述。
6 局限性
由于缺乏熟练的标签和图像对本身的复杂性,生成的描述可能包含模糊的描述,甚至专家也难以澄清。此外,我们仅采用文本相似性度量,因为现有的图像到文本描述度量(例如,FLEUR (Lee et al.,)、SPARC (Jung et al.,) 和 G-VEval (Tong et al.,))仅专注于单图像,无法适用于多图像场景。我们将这些部分留给未来的工作。
7 结论
在这项工作中,我们介绍了 RSCC,一个用于灾害感知双时相遥感图像理解的大规模事件驱动的遥感变化描述数据集。通过利用视觉推理模型 QvQ-Max,为 62,351 对事件前和事件后图像标注了详细的变化描述。此外,我们建立了一个全面的基准,以促进遥感变化描述中大型视觉-语言模型的评估和发展。我们的工作重点是促进视觉-语言模型在理解时序遥感图像相关任务方面的训练和评估。
附录 A 附录
图 8: 在 RSCC (EBD: PAKISTAN-FLOODING) 上,事件前图像(左)和事件后图像(右)的变化描述与大型模型的比较。绿色、红色和紫色的词/句子分别表示关键描述、错误描述和模糊/未确定的描述。具有推理能力的模型加了下划线。
图 9: 在 RSCC (EBD: HURRICANE-IDA) 上,事件前图像(左)和事件后图像(右)的变化描述与大型模型的比较。绿色、红色和紫色的词/句子分别表示关键描述、错误描述和模糊/未确定的描述。具有推理能力的模型加了下划线。
图 10: 在 RSCC (EBD: MOUNT-SEMERU-ERUPTION) 上,事件前图像(左)和事件后图像(右)的变化描述与大型模型的比较。绿色、红色和紫色的词/句子分别表示关键描述、错误描述和模糊/未确定的描述。具有推理能力的模型加了下划线。
图 11: 定性结果可视化。关键描述用绿色着色,错误和幻觉句子/单词用红色表示。更多结果如图 12 所示。
图 12: RSCC 的更多示例。关键描述用绿色着色,错误和幻觉句子/单词用红色表示。
A.1 RSCC 描述细节
实验使用 PyTorch 框架实现,并在 NVIDIA H800 GPUs (80GB) 上进行评估。在单个 H800 GPU 上,对于所有模型大小不超过 12B 的模型,每对图像描述大约需要 1.1-8.3 秒。
我们比较了使用零样本模板 (A.6) 的大型 MLLMs 的性能,包括开源模型,如 Pixtral Large (Mistral AI Team,) 和 LLaMA-4 Maverick (Meta AI,)。我们还对专有模型进行了案例研究,包括 GPT-4.1 (2025-04-14) (OpenAI,)、Gemeni-2.5-Pro (2025-03-25) (Gemini Team,)、和 Qwen-VL Max (2025-01-25) (Qwen Team,),以及推理模型,如 Claude-3.7-Sonnet-Thinking (2025-02-25) (Anthropic AI,) 和 o3 (2025-04-03) (OpenAI,)。对于结果生成,我们使用上述模型的默认配置。图 8、9 和 10 显示了实证研究的定性结果。我们发现专有模型在完整性和准确性方面优于开源模型。视觉推理显著提高了描述的完整性,但也引入了模糊信息甚至幻觉。由于遥感变化描述需要世界知识和复杂推理,最新的最先进 MLLMs 似乎仍不足够。
A.2 更多结果
图 11 展示了跨多样化遥感场景的视觉-语言模型的定性比较,突出了它们检测和描述变化的能力。
在场景 (a) 中,真实值准确地将洪水识别为灾害,突出了土地淹没,并将变化与水位上升联系起来,而 Kimi-VL 忽略了灾害因果关系,并将结构消失误表示为能见度提高。
在场景 (b) 中,真实值准确识别了灾害类型(火灾/热损伤)并捕捉了关键变化:烧焦的植被、深色土壤取代绿地以及受损的道路。其描述与典型的野火影响(烧焦的表面、结构碎片)一致,而 BLIP-3 错误地引用了“水体”和“岛屿”,这些在图像中并不存在,未能满足基本的准确性和相关性。
在场景 (c) 中,真实值提供了最准确、最完整和事实一致的描述。它捕捉了灾难性的破坏规模(“每个结构都变成废墟”,“贫瘠的景观”),明确提到了碎片和空荡的街道,并与严重的风驱动灾害(例如,飓风或龙卷风)的典型模式保持一致。虽然它没有指定灾害类型,但其对可观察到的损害模式(完全结构倒塌、植被损失)的关注严格遵循了视觉证据。其他描述要么误解了场景(Phi-4-MM, CCExpert),缺乏细节(TEOChat),或者忽略了关键的损害指标(Qwen2-VL)。
在场景 (d) 中,真实值通过明确提及“片片裸露的土地”、“更少的建筑”和减少的船只来展示其卓越的完整性,这与图像中的可见变化(例如,暴露的土壤、倒塌的建筑物)一致。虽然两个描述都缺乏明确的灾害类型识别,但真实值对环境和社会结构影响的特异性(“显著清理”,“人类活动的转变”)增强了其准确性和清晰度。LLaVA-Interleave 对“碎片”的模糊引用以及对关键细节(例如,裸露土地)的遗漏使其精确度较低。两者都遵循事实,但真实值更丰富的细节提升了其整体质量。
图 12 显示了 RSCC 子集上的更多样本以及基线结果。表 3 显示了 RSCC 子集上的整体定量结果。可以看到,辅助建筑物损坏信息增强极大地提高了变化描述的质量。我们还发现,无论模型大小如何,配备辅助信息后性能都会趋于饱和。我们提供了一个额外的度量 BLEURT 4 (Sellam et al., 2020),一个学习的评估指标,也用于衡量上下文相似性。然而,BLEURT 严重偏向于文本长度,在有效评估中失败。我们正在为未来寻找更可靠的指标。表 4 和 5 分别显示了 RSCC 数据源细节和基线模型配置。
表 3:RSCC 数据集子集上的详细图像描述性能
Avg_L 表示生成描述的平均单词数。粗体表示最佳性能,下划线表示次优性能。∗注:观察发现,BLIP-3(XGen-MM)和 LLaVA-OneVision 存在无限重复回答的情况,导致描述长度显著增加。
| 模型(激活参数规模) | N-Gram(%)↑ | 上下文相似度(%)↑ | Avg_L(单词数) | |||
|---|---|---|---|---|---|---|
| ROUGE(%)↑ | METEOR(%)↑ | BLEURT(%)↑ | ST5-SCS(%)↑ | |||
| BLIP-3(3B)(Xue 等,2024) | 4.53 | 10.85 | 56.49 | 44.05 | ∗456 | |
| + 文本提示 | 10.07(+5.54↑) | 20.69(+9.84↑) | 56.79(+0.30↑) | 63.67(+19.62↑) | ∗302 | |
| + 视觉提示 | 8.45(-1.62↓) | 19.18(-1.51↓) | 60.24(+3.45↑) | 68.34(+4.67↑) | ∗354 | |
| Kimi-VL(3B)(Kimi 团队,2025) | 12.47 | 16.95 | 45.11 | 51.35 | 87 | |
| + 文本提示 | 16.83(+4.36↑) | 25.47(+8.52↑) | 54.55(+9.44↑) | 70.75(+19.40↑) | 108 | |
| + 视觉提示 | 16.83(+0.00) | 25.39(-0.08↓) | 54.24(-0.31↓) | 69.97(-0.78↓) | 109 | |
| Phi-4-Multimodal(4B)(微软,2025) | 4.09 | 1.45 | 23.51 | 34.55 | 7 | |
| + 文本提示 | 17.08(+13.00↑) | 19.70(+18.25↑) | 52.00(+28.49↑) | 67.62(+33.07↑) | 75 | |
| + 视觉提示 | 17.05(-0.03↓) | 19.09(-0.61↓) | 51.46(-0.54↓) | 66.69(-0.93↓) | 70 | |
| Qwen2-VL(7B)(Wang 等,2024c) | 11.02 | 9.95 | 38.86 | 45.55 | 42 | |
| + 文本提示 | 19.04(+8.02↑) | 25.20(+15.25↑) | 52.64(+13.78↑) | 72.65(+27.10↑) | 84 | |
| + 视觉提示 | 18.43(-0.61↓) | 25.03(-0.17↓) | 52.27(-0.37↓) | 72.89(+0.24↑) | 88 | |
| LLaVA-NeXT-Interleave(8B)(Li 等,2024b) | 12.51 | 13.29 | 42.80 | 46.99 | 57 | |
| + 文本提示 | 16.09(+3.58↑) | 20.73(+7.44↑) | 50.01(+7.21↑) | 62.60(+15.61↑) | 75 | |
| + 视觉提示 | 15.76(-0.33↓) | 21.17(+0.44↑) | 50.08(+0.07↑) | 65.75(+3.15↑) | 88 | |
| LLaVA-OneVision(8B)(Li 等,2024a) | 8.40 | 10.97 | 46.27 | 46.15 | ∗221 | |
| + 文本提示 | 11.15(+2.75↑) | 19.09(+8.12↑) | 61.37(+15.10↑) | 70.08(+23.93↑) | ∗285 | |
| + 视觉提示 | 10.68(-0.47↓) | 18.27(-0.82↓) | 60.59(-0.78↓) | 69.34(-0.74↓) | ∗290 | |
| InternVL 3(8B)(Zhu 等,2025) | 12.76 | 15.77 | 43.97 | 51.84 | 64 | |
| + 文本提示 | 19.81(+7.05↑) | 28.51(+12.74↑) | 56.51(+12.54↑) | 78.57(+26.73↑) | 81 | |
| + 视觉提示 | 19.70(-0.11↓) | 28.46(-0.05↓) | 56.10(-0.41↓) | 79.18(+0.61↑) | 84 | |
| Pixtral(12B)(Mistral AI,2024) | 12.34 | 15.94 | 43.74 | 49.36 | 70 | |
| + 文本提示 | 19.87(+7.53↑) | 29.01(+13.07↑) | 55.79(+12.05↑) | 79.07(+29.71↑) | 97 | |
| + 视觉提示 | 19.03(-0.84↓) | 28.44(-0.57↓) | 54.99(-0.80↓) | 78.71(-0.36↓) | 102 | |
| CCExpert(7B)(Wang 等,2024e) | 7.61 | 4.32 | 35.21 | 40.81 | 12 | |
| + 文本提示 | 8.71(+1.10↑) | 5.35(+1.03↑) | 39.01(+3.80↑) | 47.13(+6.32↑) | 14 | |
| + 视觉提示 | 8.84(+0.13↑) | 5.41(+0.06↑) | 38.94(-0.07↓) | 46.58(-0.55↓) | 14 | |
| TEOChat(7B)(Irvin 等,2024) | 7.86 | 5.77 | 39.47 | 52.64 | 15 | |
| + 文本提示 | 11.81(+3.95↑) | 10.24(+4.47↑) | 45.53(+6.06↑) | 61.73(+9.09↑) | 22 | |
| + 视觉提示 | 11.55(-0.26↓) | 10.04(-0.20↓) | 45.31(-0.22↓) | 62.53(+0.80↑) | 22 | |
| 本文方法(7B) | 14.99 | 16.05 | 45.50 | 58.52 | 44 | |
| + 文本提示 | 22.23(+7.24↑) | 33.83(+17.78↑) | 56.87(+11.37↑) | 78.02(+19.50↑) | 76 | |
| + 视觉提示 | 22.37(+0.14↑) | 33.81(-0.02↓) | 57.02(+0.15↑) | 78.87(+0.85↑) | 79 | |
| Qwen2.5-VL(72B)(Qwen 团队,2025a) | - | - | - | - | - | |
| + 文本提示 | - | - | - | 76.84 | 53 | |
| + 视觉提示 | - | - | - | 76.85 | 57 |
表 4:RSCC 数据集中的 31 个灾害事件
| 数据来源 | 灾害类型 | 灾害事件名称 | 事件日期 |
|---|---|---|---|
| xBD | 地震 | 墨西哥城地震 | 2017 年 9 月 19 日 |
| 野火 | 葡萄牙野火 | 2017 年 6 月 17 日 - 24 日 | |
| 野火 | 圣罗莎野火 | 2017 年 10 月 8 日 - 31 日 | |
| 野火 | 卡尔野火 | 2018 年 7 月 23 日 - 8 月 30 日 | |
| 野火 | 伍尔西野火 | 2018 年 11 月 9 日 - 28 日 | |
| 野火 | 派恩里野火 | 2018 年 11 月 25 日 - 12 月 2 日 | |
| 火山喷发 | 下普纳火山喷发 | 2018 年 5 月 23 日 - 8 月 14 日 | |
| 火山喷发 | 危地马拉富埃戈火山喷发 | 2018 年 6 月 3 日 | |
| 风暴 | 阿拉巴马州塔斯卡卢萨龙卷风 | 2011 年 4 月 27 日 | |
| 风暴 | 密苏里州乔普林龙卷风 | 2011 年 5 月 22 日 | |
| 风暴 | 俄克拉荷马州摩尔龙卷风 | 2013 年 5 月 20 日 | |
| 风暴 | 马修飓风 | 2016 年 9 月 28 日 - 10 月 10 日 | |
| 风暴 | 佛罗伦萨飓风 | 2018 年 9 月 10 日 - 19 日 | |
| 洪水 | 尼泊尔、印度、孟加拉国季风洪水 | 2017 年 7 月 - 9 月 | |
| 洪水 | 哈维飓风(引发洪水) | 2017 年 8 月 17 日 - 9 月 2 日 | |
| 洪水 | 迈克尔飓风(引发洪水) | 2018 年 10 月 7 日 - 16 日 | |
| 洪水 | 美国中西部洪水 | 2019 年 1 月 3 日 - 5 月 31 日 | |
| 海啸 | 印度尼西亚海啸 | 2018 年 9 月 18 日 | |
| 海啸 | 巽他海峡海啸 | 2018 年 12 月 22 日 | |
| EBD | 飓风 | 德尔塔飓风 | 2020 年 10 月 8 日 |
| 飓风 | 多里安飓风 | 2019 年 9 月 1 日 | |
| 飓风 | 艾达飓风 | 2021 年 10 月 29 日 | |
| 飓风 | 劳拉飓风 | 2020 年 8 月 26 日 | |
| 飓风 | 艾尔玛飓风 | 2017 年 9 月 6 日 | |
| 飓风 | 伊恩飓风 | 2022 年 9 月 26 日 | |
| 龙卷风 | 得克萨斯州龙卷风 | 2022 年 3 月 23 日 | |
| 火山喷发 | 塞梅鲁火山喷发 | 2021 年 12 月 4 日 | |
| 火山喷发 | 圣文森特火山喷发 | 2021 年 4 月 9 日 | |
| 火山喷发 | 汤加火山喷发 | 2022 年 1 月 15 日 | |
| 地震 | 土耳其地震 | 2023 年 2 月 6 日 | |
| 洪水 | 巴基斯坦洪水 | 2022 年 7 月 26 日 |
表 5:基准模型的配置信息
| 模型名称 | 激活参数数量(#Active Parameters) | 大语言模型(LLM) | 图像编码器(Image Encoder) |
|---|---|---|---|
| Kimi-VL | 3B | Moonlight-A3B-E18B | MoonViT |
| BLIP-3 | 4B | Phi-3-mini-4B | SigLIP |
| Phi-4-Multimodal | 4B | Phi-4-Mini 4B | SigLIP(LORA) |
| LLaVA-NeXT-Interleave | 7B | Qwen1.5 7B | SigLIP |
| Qwen2-VL | 7B | Qwen2-7B | DFN’s ViT-H |
| LLaVa-OneVision | 7B | Qwen2 7B | SigLIP |
| InternVL 3 | 8B | Qwen2.5-7B | InternViT-300M |
| Pixtral | 12B | Mistral-Nemo-12B | PixtralViT |
| TEOChat | 7B | Vicuna-v1.5-7B | OpenCLIP-L/14 |
| CCExpert | 7B | Qwen2-7B | SigLIP |
1470

被折叠的 条评论
为什么被折叠?



