《Area-keywords cross-modal alignment for referring image segmentation》“区域-关键字”跨模态对齐框架

文章提出一种区域-关键词跨模态对齐框架,结合CLIP的图像和语言编码器,通过跨模态对准和多源驱动动态卷积,解决模态间语义信息不一致,以提升图像分割的准确性。

作者贡献

1.设计了一种区域-关键词跨模态对齐框架,用于参考图像分割解决了两种模态特征单元之间语义信息不一致的问题。

2.提出了一个跨模态混合模块,在融合早期实现不同模态之间更全面的信息交互。

3.提出了一种多源驱动的动态卷积算法,该算法基于文本特征、视觉特征和跨模态特征将区域关键词跨模态特征反向映射到分割掩码中。

框架介绍

下图显示了拟议AKCA的框架。首先,图像编码器和语言编码器分别提取图像和语言特征。然后用跨模态对准模块对两模态之间的关系进行建模。最后,多源驱动的动态卷积将跨模态特征转换为像素级预测。

多模态编码器

AKCA采用CLIP的图像编码器和语言编码器来提取两种模态的特征。

文本编码器

输入表达式T\in R^L,CLIP编码后得到文本特征F_t \in R^{L\times C},并且可以再CLIP的文本编码器中得到全局语义特征F_s\in R^{1\times C'}

图像编码器

输入图像I\in R^{H\times W \times 3},将ResNet的第2,3,4阶段的输出特征作为多层视觉特征,分别表示为\left \{ F_{v_i}\in R^{H_i\times W_i\times C_i} \right \}^4_{i=2}

跨模态混合模块(CBM)

在编码器阶段的早期跨模态融合被证明对RIS是有效的。作者将多层视觉特征与全局文本特征融合。统合方式是通过将全局文本特征与视觉特征相乘。F_{m_i} = F_s \bigodot F_{v_i},0⊙表示逐元素的乘法。

将上层视觉特征上采样然后和下层特征在通道维度concate,𝛾表示1*1卷积。

F_{m4}上采样,并且对F'_{m2}平均池化,使得它们和F'_{m3}是相同的尺寸。再concate过1*1卷积,再与位置信息concate再过一个3*3卷积得到视觉特征F_v\in R^{H_3\times W_3 \times C}

区域-关键字跨模态对齐

句子到关键词的汇编器(WKA)

文本中的一些非关键信息,如介词和冠词,对对象定位没有积极影响,因此将所有单词特征都纳入对齐会使计算过程效率低下。为了对关键字和非关键字给予不同的关注,激活关键字获取关键字特征,确保参与跨模态融合过程的关键字级特征尽可能只包含关键信息。

具体实现:对F_t生成激活向量K_a\in R^{M\times L}:,M表示激活向量个数,每个向量包含L个参数,也就是单词的数量。K_a中的元素表示用于关键信息融合的权重。K_a的权重越大,表示相应的单词更有可能与语言表达式所引用的对象相关。通过生成多个重点关注不同关键信息的关键字特征F_k\in R^{M\times C}表示的是一个线性层参数。⊗表示矩阵相乘。

像素到区域的汇编器(PAA)

每个独立像素包含的信息是不够的,而对于分割成patch级别的信息中包含了一些背景信息对理解主要目标也没有用。因此,作者采用二维区域激活图——高亮像素代表区域的大小和位置。

具体实现: 其中A_a\in R^{N\times \left ( H_3\times W_3 \right )},N表示激活图的个数。A_aF_v

进行矩阵相乘,得到N个区域特征F_a\in R^{N\times C}。其中表示3*3卷积。

跨通道对齐

作者采用多层transformer解码器对文本特征和视觉特征进行对齐,以关键字特征F_k\in R^{M\times C}和区域级视觉特征F_a\in R^{N\times C}作为输入,生成区域级跨模态特征F_c\in R^{N\times C}。为了获得位置信息,将固定的一维正弦位置信息分别加入到F_kF_a中,然后送入解码器。

每一层都是标准Transformer层(由多头自注意力,多头交叉注意力,多层感知机组成)。

多源驱动的动态卷积

由于区域关键字跨模态特征所包含的空间信息是隐式的,需要引入图像特征来恢复空间信息。与以往使用文本特征作为卷积核参数的方法不同,本文设计了一种多源驱动的动态卷积算法预测掩码。

具体实现:基于F_cF_s之间的余弦相似度,质量评估器从F_c中选取与F_s最相关的k个跨模态特征F_q\in R^{Q\times C};其中Q为k*k+1。

前k个跨模态特征更有可能包含语言表达式所引用的对象。给定的F_q,参数生成器通过视觉投影𝜌生成动态卷积核权w\in R^{Z\times K \times K}和偏差b\in R^Z,其中𝑍表示权的维数。对视觉特征利用动态卷积上采样得到F'_v\in R^{H/4\times W/4\times Z}最终掩码M\in R^{H/4\times W/4\times1}

损失函数

采用二值交叉熵损失函数

实现细节(原文翻译)

我们使用预训练模型CLIP[52]作为图像和语言的特征编码器,其中图像编码器为ResNet[31]。模型的其余参数随机初始化。

语言编码器有12层,512个隐藏层节点和8个头。视觉语言解码层有8个头,前馈网络的隐层维数设置为2048。对于RefCOCO和RefCOCO+,语言表达式的最大长度设置为17。对于G-Ref,语言表达式的最大长度设置为22。在所有实验中,我们采用了初始学习率为0.0001的AdamW[57]优化器,在第35个历元时学习率降低了0.1倍。我们的模型训练了60个epoch,批大小为32。输入图像被调整为416 × 416。在推理过程中,我们将预测结果上采样到原始图像大小,并以0.35的阈值作为最终结果对其进行二值化。不需要其他后处理操作。

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值