《Area-keywords cross-modal alignment for referring image segmentation》“区域-关键字”跨模态对齐框架

原创已于 2024-03-21 20:10:12 修改 · 1k 阅读

20 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#深度学习 #计算机视觉 #人工智能

于 2024-03-21 20:09:52 首次发布

文章提出一种区域-关键词跨模态对齐框架，结合CLIP的图像和语言编码器，通过跨模态对准和多源驱动动态卷积，解决模态间语义信息不一致，以提升图像分割的准确性。

作者贡献

1.设计了一种区域-关键词跨模态对齐框架，用于参考图像分割解决了两种模态特征单元之间语义信息不一致的问题。

2.提出了一个跨模态混合模块，在融合早期实现不同模态之间更全面的信息交互。

3.提出了一种多源驱动的动态卷积算法，该算法基于文本特征、视觉特征和跨模态特征将区域关键词跨模态特征反向映射到分割掩码中。

框架介绍

下图显示了拟议AKCA的框架。首先，图像编码器和语言编码器分别提取图像和语言特征。然后用跨模态对准模块对两模态之间的关系进行建模。最后，多源驱动的动态卷积将跨模态特征转换为像素级预测。

多模态编码器

AKCA采用CLIP的图像编码器和语言编码器来提取两种模态的特征。

文本编码器

输入表达式 $T\in R^L$ ,CLIP编码后得到文本特征 $F_t \in R^{L\times C}$ ,并且可以再CLIP的文本编码器中得到全局语义特征 $F_s\in R^{1\times C'}$ 。

图像编码器

输入图像 $I\in R^{H\times W \times 3}$ ,将ResNet的第2，3，4阶段的输出特征作为多层视觉特征，分别表示为 $\left \{ F_{v_i}\in R^{H_i\times W_i\times C_i} \right \}^4_{i=2}$ 。

跨模态混合模块（CBM)

在编码器阶段的早期跨模态融合被证明对RIS是有效的。作者将多层视觉特征与全局文本特征融合。统合方式是通过将全局文本特征与视觉特征相乘。 $F_{m_i} = F_s \bigodot F_{v_i}$ ,0⊙表示逐元素的乘法。

将上层视觉特征上采样然后和下层特征在通道维度concate，𝛾表示1*1卷积。

对 $F_{m4}$ 上采样，并且对 $F'_{m2}$ 平均池化，使得它们和 $F'_{m3}$ 是相同的尺寸。再concate过1*1卷积，再与位置信息concate再过一个3*3卷积得到视觉特征 $F_v\in R^{H_3\times W_3 \times C}$ 。

区域-关键字跨模态对齐

句子到关键词的汇编器（WKA)

文本中的一些非关键信息，如介词和冠词，对对象定位没有积极影响，因此将所有单词特征都纳入对齐会使计算过程效率低下。为了对关键字和非关键字给予不同的关注，激活关键字获取关键字特征，确保参与跨模态融合过程的关键字级特征尽可能只包含关键信息。

具体实现：对 $F_t$ 生成激活向量 $K_a\in R^{M\times L}$ :,M表示激活向量个数，每个向量包含L个参数，也就是单词的数量。 $K_a$ 中的元素表示用于关键信息融合的权重。 $K_a$ 的权重越大，表示相应的单词更有可能与语言表达式所引用的对象相关。通过生成多个重点关注不同关键信息的关键字特征 $F_k\in R^{M\times C}$ 。表示的是一个线性层参数。⊗表示矩阵相乘。

像素到区域的汇编器（PAA)

每个独立像素包含的信息是不够的，而对于分割成patch级别的信息中包含了一些背景信息对理解主要目标也没有用。因此，作者采用二维区域激活图——高亮像素代表区域的大小和位置。

具体实现：其中 $A_a\in R^{N\times \left ( H_3\times W_3 \right )}$ ,N表示激活图的个数。 $A_a$ 和 $F_v$

进行矩阵相乘，得到N个区域特征 $F_a\in R^{N\times C}$ 。其中表示3*3卷积。

跨通道对齐

作者采用多层transformer解码器对文本特征和视觉特征进行对齐，以关键字特征 $F_k\in R^{M\times C}$ 和区域级视觉特征 $F_a\in R^{N\times C}$ 作为输入，生成区域级跨模态特征 $F_c\in R^{N\times C}$ 。为了获得位置信息，将固定的一维正弦位置信息分别加入到 $F_k$ 和 $F_a$ 中，然后送入解码器。

每一层都是标准Transformer层（由多头自注意力，多头交叉注意力，多层感知机组成）。

多源驱动的动态卷积

由于区域关键字跨模态特征所包含的空间信息是隐式的，需要引入图像特征来恢复空间信息。与以往使用文本特征作为卷积核参数的方法不同，本文设计了一种多源驱动的动态卷积算法预测掩码。

具体实现：基于 $F_c$ 和 $F_s$ 之间的余弦相似度，质量评估器从 $F_c$ 中选取与 $F_s$ 最相关的k个跨模态特征 $F_q\in R^{Q\times C}$ ;其中Q为k*k+1。

前k个跨模态特征更有可能包含语言表达式所引用的对象。给定的 $F_q$ ，参数生成器通过视觉投影𝜌生成动态卷积核权 $w\in R^{Z\times K \times K}$ 和偏差 $b\in R^Z$ ，其中𝑍表示权的维数。对视觉特征利用动态卷积上采样得到 $F'_v\in R^{H/4\times W/4\times Z}$ 最终掩码 $M\in R^{H/4\times W/4\times1}$

损失函数

采用二值交叉熵损失函数

实现细节（原文翻译）

我们使用预训练模型CLIP[52]作为图像和语言的特征编码器，其中图像编码器为ResNet[31]。模型的其余参数随机初始化。

语言编码器有12层，512个隐藏层节点和8个头。视觉语言解码层有8个头，前馈网络的隐层维数设置为2048。对于RefCOCO和RefCOCO+，语言表达式的最大长度设置为17。对于G-Ref，语言表达式的最大长度设置为22。在所有实验中，我们采用了初始学习率为0.0001的AdamW[57]优化器，在第35个历元时学习率降低了0.1倍。我们的模型训练了60个epoch，批大小为32。输入图像被调整为416 × 416。在推理过程中，我们将预测结果上采样到原始图像大小，并以0.35的阈值作为最终结果对其进行二值化。不需要其他后处理操作。