HUNet: Homotopy Unfolding Network for Image Compressive Sensing-CVPR2025

原创已于 2026-03-14 20:06:47 修改 · 499 阅读

8 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

收录于

图像复原-论文

于 2026-03-14 20:06:16 首次发布

Paper：论文地址

Code：https://github.com/ICSResearch/HUNet

文章目录

前言

1. Introduction

2. Related Works

2.1. Traditional Homotopy Algorithm

2.2. Deep Unfolding Networks

3. HUNet Architecture

3.1. Multi-scale Homotopy Iterative Module

3.2. Dual-path Feature Fusion Module

3.3. Loss Function

4. Experiments

4.1. Experimental Settings

4.2. Comparisons

4.3. HUNet with Different Noises

4.4. Ablation Study

5. Conclusion

前言

问题： 深度展开网络(DUNs)由于其在图像压缩感知(CS)中的可解释性和优异的性能而日益受到重视。然而，现有的DUNs仍然面临着迭代重建阶段单尺度图像信息表达能力不足、特征信息丢失等重大问题，从根本上限制了图像CS性能的进一步提升。

贡献：在本文中，我们提出了一种用于图像压缩感知（CS）的 Homotopy Unfolding Network（HUNet），该方法能够沿着同伦路径实现图像的逐阶段重建。

具体而言，传统同伦算法的每一次迭代步骤都被映射为一个 多尺度同伦迭代模块（Multi-scale Homotopy Iterative Module, MHIM），该模块包含 U 形结构的堆叠式基于窗口的 Transformer 块，能够实现高效的特征提取。

在 MHIM 中，我们设计了 深度同伦延续策略（deep homotopy continuation strategy），以保证同伦算法的可解释性并促进特征学习。此外，我们还引入了 双路径特征融合模块（dual-path feature fusion module），用于缓解迭代阶段之间特征传递过程中高维特征信息的损失，从而最大程度地保留重建图像中的细节信息。

1. Introduction

图像压缩：

众所周知，迭代收缩阈值算法(iterative shrink- threshold Algorithm, ISTA)[1]、NESTA[2]、同伦算法[47]等传统迭代算法都可以通过有限次迭代逼近方程(1) 中优化问题的最优解。其中，同伦算法可以通过刻意构造的同伦路径提供稳定且全局收敛的解，适用于求解复杂的非线性问题。然而，这些传统的迭代方法往往需要大量的实验和先验知识来获得最优解。

基于 DL 的CS重构模型主要分为 Pure DL-based models 和Deep Unfolding Network (DUNs)两类：

Pure DL-based models [9,10,45]可以看作是黑盒，通过输入大量训练样本来学习从测量数据到原始图像的映射，而没有明确建模特定于领域的先验知识。这些纯粹的数据驱动模型，包括DPANet[36]、S2-CSNet[18]和BRBCN[21]，很难学习CS的底层物理定律，这限制了它们的适用性。

与 Pure DL-based models 相比，DUNs 将传统算法的迭代过程转化为级联的神经网络模块，自然具有数学可解释性。然而，这些已有的DUNs在迭代重建过程中仍然存在不可忽视的问题：（1）迭代阶段对多尺度图像特征的利用效率不高；（2）高维抽象特征在迭代阶段之间的传输存在较大的特征损失，如图 1 所示。

2. Related Works

2.1. Traditional Homotopy Algorithm

同伦算法以其解决凸优化问题的鲁棒的理论基础而闻名，与 ISTA 和 NESTA 相比，具有更快的收敛速度和更高的重建精度。它沿着预定义的同伦路径实现图像重建，该路径对应于具有递减正则化参数的问题。对于方程(1)中的问题，同伦算法首先设：

其中，作为同伦参数，满足，表示向量的无穷范数。然后，同伦算法初始化，并沿着同伦路径跟踪下列连续凸优化问题的一系列解：

同伦算法执行复合梯度映射[27]来更新方程(3)。通过引入中间变量和步长，可以将其重新表述为：

其中，软阈值运算符定义为:

其中，代表一个常数。经过次迭代，同伦算法得到解。

2.2. Deep Unfolding Networks

DUNs将传统的迭代算法重构为定制化的神经网络模块，显著提高了CS重构的效率和质量。尽管有这些创新，但目前的DUNs往往忽略了迭代阶段中多尺度特征的重要性，并且每个阶段获得的特征图在逐级传输过程中存在信息丢失，无法改善最终的重建结果。

3. HUNet Architecture

图 2 提供了HUNet的详细概述。总体而言，HUNet包括采样阶段和重建阶段，该阶段使用定制的MHIMs作为一系列迭代阶段，并使用DFFM实现特征融合。

在采样阶段，我们首先定义块函数，将原始图像划分为大小为的图像块，其中 = ，然后定义基于卷积的采样变换，得到测量值，这个过程可以表示为：。对于图像重建，我们首先初始化输入，使用的转置卷积为：。关于和的进一步详细信息见补充材料(第2.1条)。考虑到和分别相当于传统同伦算法中的和，并参考方程(2)，我们将初始化如下：

之后，我们将和引入一系列迭代阶段，每个阶段的功能由定制的 MHIM 实现。对于第个MHIM：

其中，表示迭代阶段之间转换的特征映射，表示迭代阶段内的高维特征映射。最后，我们引入DFFM，它主动融合和交互从个迭代阶段收集的结果：

式中，表示的逆过程，表示 HUNet 的最终重建图像。

3.1. Multi-scale Homotopy Iterative Module

我们提出了 MHIM，它通过同伦算法在多尺度空间上执行迭代重建阶段。MHIM 主要由深度特征提取块(DFEB)、深度特征聚合块 (DFAB)、WTB 和 DHCS 组成。MHIM 内部定义了迭代尺度空间(ISS) 来表示相内融合的尺度空间，ISS 的个数表示为：图3(a) 展示出 HUNet 中的第次 MHIM，其中，。MHIM 从梯度下降操作开始，将方程(4)中的和替换为和，得到：

其中，，而是一个可训练的步长。在此操作之后，为了充分捕获图像中的深层抽象信息，MHIM 采用 DFEB 将的维数扩展为。这个过程在数学上表示为：

其中，DFEB 表示一系列 3 × 3 个卷积和 ReLU 激活组合，如图 3(b)所示，广播操作沿着信道维度复制次。由于 CS 任务中的具有广泛的图像语义，残差连接有效地防止了语义信息的退化。

随后，MHIM 利用堆叠 WTBs 的 U 型结构对方程(5) 中的迭代过程进行建模。如图3(a)所示，U 型结构可视为一对完全对称的编码器和解码器，分别对应和。和分别使用Down 和 Up 连接内部 WTBs，如图3(c)所示。

此外，和采用多个并行跳变连接传输特征图和，最终生成阶段内特征图，其数学表达式为：

在这里，DHCS 取代了方程(5) 中的，以在高维空间中抽象传统的同伦算法。最后，MHIM 利用 DFAB (如图3(d)所示)对进行信道压缩和特征融合，并通过残差连接将结果与连接起来：

此时，MHIM 中到的更新过程可以看作是沿同伦路径的一次迭代。

（1）Window-based Transformer Block

我们对 WTB 进行了设计，以提高在迭代阶段对特定尺度的特征信息的有效提取。图3(e)和图3(f)显示，和的 WTBs 具有一致的组件结构，包括深度多层感知器(DMLP)、排列窗口注意(PWA)、排列移位窗口注意(PSWA)和层归一化(LN)。

在每个 WTB 中，我们分别使用 PWA 和 PSWA 将空间信息传递到缩放通道维度，用于窗口注意和参数较少的窗口注意转移[49]。图3(g)显示了PWA/PSWA的计算过程，详细计算请参见补充材料(第2.2节)。此外，在每个 PWA 或 PSWA 之后，我们结合 DMLP 来建模更复杂的非线性转换，显著减少了处理高维数据时线性层引入的参数开销。DMLP的组成如图 3(i)所示。

具体而言，为了显著增强相同尺度下 WTBs 之间的信息交互，我们在 WTBs 之间建立了两条残差连接通路。图3(e)和图3(f)描述了中WTB与中WTB之间的信息交互机制。的 WTB基于窗口和移位窗口生成了两个特征映射和，然后通过跳跃连接输入的 WTB，并在特征融合过程中保持窗口对齐的一致性。在实践中，我们定义和总是 的整数倍。此外，输出的和分别通过 Down 和 Up 路径，在的WTB和的 WTB中进行进一步处理。

（2）Deep Homotopy Continuation Strategy

它保证了传统同伦算法在高维空间中数学假设的有效性。具体地说，DHCS 设置了一系列可训练的同伦参数，其中代替方程(2)中的，初始化时所有项设置为。类似地，DHCS 使用长度为的一系列张量来构造高维空间中的同伦路径。因此，如图3(a)所示，第次 MHIM 内的 DHCS 计算过程如下：

其中，在方程(7)中初始化，和分别表示 DHCS 的输入和输出。值得注意的是，在计算时，会广播到与相同的维度，从而确保每个通道的独立性。在可学习参数的指导下，DHCS 可以实现同伦一致和动态调整的优化轨迹，从而得到增强解。

3.2. Dual-path Feature Fusion Module

我们引入 DFFM，以最大化利用各阶段生成的特征图，从而获得更加细致的重建结果。如图 3(h) 所示，DFFM 通过两条独立路径接收跨阶段特征图和阶段内高维特征图 ，并促进二者之间的交互。对于，DFFM 在通道维度上对其进行拼接，从而得到。对于，DFFM 对其求和得到。

由于和的维度不同，DFFM 首先使用一个简单的卷积将的通道数从提升到，随后采用 DMLP 进一步整合得到的多通道特征。随后，考虑到不同阶段之间特征图的相似性，DFFM 引入 Squeeze-and-Excitation（SE） [15] 模块，对的通道信息进行重新加权，从而增强重要特征的表达，同时抑制来自不同通道中不太相关的特征。

为了实现由和得到的高维特征图之间更充分的细节互补，DFFM 随后使用一个可学习权重对进行缩放，并将其与前者相加。最后，DFFM 利用 DFAB（如图 3(d) 所示）进行通道压缩和高维特征聚合，从而得到最终的重建结果。DFFM 可以表示为如下形式：

式中，表示卷积层。综上所述，本文提出的 HUNet 在 算法1 中进行了描述，其中注意，第9行公式中包含了和之间的并行信息流计算，这里将其简化为对应于方程(5)的表示。

3.3. Loss Function

我们定义图像的训练集为，其中为训练图像的个数。相应的，从通过 HUNet 采样重建得到一系列的重构图像。在 HUNet 中，我们使用均方误差来衡量原始图像与重建图像之间的差异。数学上，损失函数可表示为：

其中，表示可学习的参数集，包括、、，以及我们所提出的 HUNet 的DL模块中的所有权值和偏差。

4. Experiments

4.1. Experimental Settings

我们的HUNet 的默认迭代阶段数为 7，每个阶段的默认 ISS 计数为 3。训练时，将图像的 patch 大小设置为，默认的特征通道数为 48。所有实验都是在 GeForce RTX 3090 GPU上使用 PyTorch 1.12.0 框架进行的。有关实验设置的更多详细信息，请参阅补充材料(第3.1节)。

4.2. Comparisons

4.3. HUNet with Different Noises

4.4. Ablation Study

（1）HUNet with Different Numbers of Phases

（2）HUNet with Different Components

5. Conclusion

在本文中，我们提出了一种新的图像CS同伦展开网络，记作HUNet。通过将同伦算法的每个迭代步骤嵌入到定制的MHIM中，HUNet增强了对多尺度图像细节特征的提取。此外，我们设计了DFFM，通过双路径策略实现多阶段特征融合，以优化特征利用率。综合实验表明，HUNet在图像CS任务上明显优于当前的SOTA方法。

标签

#Deep Unfolding #深度学习 #压缩感知