视觉 - 语言预训练（VLP）经典模型回顾

原创于 2026-06-15 06:56:56 发布 · 392 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

Document 专栏收录该内容

1338 篇文章

订阅专栏

视觉 - 语言预训练（VLP）经典模型回顾

在人工智能领域，视觉与语言的融合研究正逐渐成为热点，视觉 - 语言预训练（VLP）模型作为这一方向的重要成果，为多模态任务的处理提供了强大的基础。以下将对一些经典的 VLP 模型进行回顾。

ViLBERT

ViLBERT 是较早出现的具有代表性的 VLP 模型之一。它的核心设计理念是将视觉和语言信息分别通过独立的 Transformer 编码器进行处理，然后再将两者进行交互融合。

在视觉部分，ViLBERT 接收图像作为输入，利用卷积神经网络（CNN）提取图像的特征，这些特征被视为一系列的视觉标记。语言部分则以文本序列作为输入，通过标准的 Transformer 编码器对文本进行编码，生成语言标记。

为了实现视觉和语言信息的交互，ViLBERT 引入了共注意力机制。这种机制允许视觉标记和语言标记之间进行双向的信息交流。在交互过程中，模型可以学习到视觉元素和语言描述之间的对应关系，例如图像中的某个物体与文本中相应的名词之间的关联。

ViLBERT 的主要用途广泛，可用于视觉问答任务，即根据给定的图像和问题，生成准确的答案。它能够理解图像内容和问题语义，结合两者信息给出合理的回答。此外，在图像字幕生成任务中，ViLBERT 可以根据图像特征生成自然流畅的文本描述，描述图像中的场景、物体和动作等信息。在指代表达理解任务中，它能够根据文本中的指代描述，在图像中找到对应的物体。

LXMERT

LXMERT 也是 VLP 领域的重要模型，它同样采用了双流架构来处理视觉和语言信息。与 ViLBERT 类似，LXMERT 分别使用独立的编码器对图像和文本进行编码。

在视觉编码方面，LXMERT 利用目标检测模型提取图像中的物体特征，包括物体的类别、位置等信息，并将这些信息转化为视觉标记。语言编码则使用 Transformer 对文本序列进行处理，生成语言标记。

LXMERT 的独特之处在于它设计了跨模态编码器，用于进一步融合视觉和语言信息。跨模态编码器通过多层 Transformer 结构，使视觉标记和语言标记在更高层次上进行交互和融合。在这个过程中，模型可以学习到更复杂的视觉 - 语言语义关系。

LXMERT 在多个多模态任务中表现出色。在视觉常识推理任务中，它能够结合图像和文本信息，对场景中的事件进行推理和判断。例如，根据图像和问题判断某个事件是否可能发生。在视觉问答任务中，LXMERT 可以更准确地理解问题的意图，并从图像中获取相关信息来回答问题。此外，在指代消解任务中，它能够根据文本中的指代信息，在图像中准确找到对应的物体。

UNITER

UNITER 是一种单流架构的 VLP 模型。与双流架构不同，单流架构将视觉和语言标记直接拼接在一起，然后通过一个统一的 Transformer 编码器进行处理。

UNITER 在输入处理上，将图像特征和文本特征进行融合，形成混合标记序列。图像特征可以通过多种方式提取，例如使用 CNN 或目标检测模型。文本特征则通过词嵌入等方式进行表示。

在训练过程中，UNITER 采用了多种预训练任务，包括掩码语言建模、掩码区域建模和图像 - 文本匹配等。掩码语言建模任务随机掩盖文本中的部分单词，让模型预测被掩盖的单词，从而学习语言的语义信息。掩码区域建模任务则随机掩盖图像中的部分区域，让模型预测被掩盖区域的内容，帮助模型理解图像信息。图像 - 文本匹配任务则让模型判断给定的图像和文本是否匹配，增强模型对视觉和语言一致性的理解。

UNITER 的应用场景丰富多样。在图像检索任务中，它可以根据给定的文本描述，从大量图像中检索出与之匹配的图像。在文本生成任务中，UNITER 可以根据图像内容生成相关的文本，如图像描述、故事等。在多模态分类任务中，它能够对图像 - 文本对进行分类，例如判断图像和文本所表达的情感是积极还是消极。