YOLO26优化-ASF-YOLO

最新推荐文章于 2026-06-13 21:28:27 发布

原创

最新推荐文章于 2026-06-13 21:28:27 发布 · 744 阅读 ·

大模型引用 1 次

代码可运行

论文地址：https://arxiv.org/pdf/2312.06458

1. 摘要

本文提出一种新型的基于注意力尺度序列融合的你只看一次（YOLO）框架（ASF-YOLO），该框架融合空间特征与尺度特征，实现精准、快速的细胞实例分割。该模型以 YOLO 分割框架为基础，引入尺度序列特征融合模块（SSFF）提升网络的多尺度信息提取能力，通过三重特征编码模块（TFE）融合不同尺度的特征图，丰富细节信息；同时设计通道与位置注意力机制（CPAM），将尺度序列特征融合模块与三重特征编码模块的特征信息进行整合，使模型聚焦于包含有效信息的通道及与空间位置相关的小目标，从而提升检测与分割性能。在两个细胞数据集上的实验验证表明，所提 ASF-YOLO 模型具备优异的分割精度与推理速度。在 2018 年数据科学碗数据集上，该模型的边界框平均精度均值（box mAP）达 0.91、掩码平均精度均值（mask mAP）达 0.887，推理速度为 47.3 帧 / 秒，性能优于当前最优方法。相关源代码已开源，地址为https://github.com/mkang315/ASF-YOLO。

2. 论文主要工作

本文针对医学影像中小目标分割的难点，以 YOLOv5 为基础模型进行改进并将其应用于细胞实例分割任务，提出单阶段实例分割模型 ASF-YOLO，核心工作与创新点如下：

设计尺度序列特征融合模块（SSFF）与三重特征编码模块（TFE），并基于路径聚合网络（PANet）结构融合骨干网络提取的多尺度特征图。其中，SSFF 模块通过对多尺度特征进行归一化、上采样与拼接后送入三维卷积，融合图像不同尺度的全局语义信息，有效处理尺度、朝向与宽高比各异的目标；TFE 模块融合小、中、大三种尺度的特征图，捕捉不同尺度下小目标的精细空间信息，解决了 YOLOv5 中特征金字塔网络（FPN）仅通过简单的求和与拼接操作、无法充分挖掘金字塔特征图间关联且过度依赖小尺度特征图的缺陷。
设计通道与位置注意力机制（CPAM），对 SSFF 模块与 TFE 模块输出的特征信息进行整合，使模型能自适应地聚焦于不同尺度下与小目标相关的有效通道和空间位置，相比未引入注意力机制的传统 YOLOv5 架构，实现了更优的细胞实例分割效果。
将 ASF-YOLO 模型应用于存在密集重叠问题的多种细胞类型的实例分割任务，是首次将基于 YOLO 的模型用于细胞实例分割的研究。在两个细胞基准数据集上的实验结果表明，该模型相较于此前用于细胞分割的卷积神经网络（CNN）模型及多款最新的 YOLO 系列模型，在检测精度与推理速度上均表现更优。
在模型训练与后处理阶段进行优化：训练阶段采用有效交并比（EIoU）损失函数优化锚框定位，相比 YOLOv5 和 YOLOv8 所用的完全交并比（CIoU），更能精准捕捉小目标的位置信息；后处理阶段引入软非极大值抑制（Soft-NMS）算法，有效缓解细胞密集重叠带来的检测误差问题。

3. ASF-YOLO

3.1. 整体架构

图 3 展示了 ASF-YOLO 框架的整体结构，该模型融合空间特征与多尺度特征，用于细胞图像的实例分割。本文设计了一种新型的特征融合网络架构，包含两个核心子网络，二者可为小目标分割提供互补信息：一是尺度序列特征融合模块（SSFF），用于融合图像多个尺度的全局 / 高层语义信息；二是三重特征编码模块（TFE），用于捕捉小目标的局部精细细节。融合局部与全局特征信息后，可生成精度更高的分割图。

本研究对骨干网络提取的 P3、P4、P5 特征层的输出特征进行融合，具体流程为：首先设计 SSFF 模块，有效融合 P3、P4、P5 特征图，捕捉适用于不同类型细胞多样尺寸与形态的多空间尺度信息；在 SSFF 模块中，先将 P3、P4、P5 特征图归一化至相同尺寸并完成上采样，再将其堆叠后输入三维卷积，实现多尺度特征融合。其次设计 TFE 模块，通过在空间维度拼接大、中、小三种尺度的特征，增强密集细胞场景下的小目标检测能力，捕捉小目标的细节信息。随后，路径聚合网络（PANet）将 TFE 模块输出的细节特征信息整合至各特征分支，并将该信息与 SSFF 模块的多尺度信息共同融合至 P3 特征分支。最后，在 P3 特征分支中引入通道与位置注意力机制（CPAM），同时利用模块输出的高层多尺度特征与精细细节特征；CPAM 中的通道注意力与位置注意力可分别捕捉有效信息通道、优化细胞等小目标的空间定位精度，进而提升模型的检测与分割性能。

3.2. 尺度序列特征融合模块

针对细胞图像的多尺度问题，现有研究多采用特征金字塔结构进行特征融合，但这类方法仅通过求和或拼接操作融合金字塔特征，各类特征金字塔网络结构均无法充分挖掘所有金字塔特征图之间的关联性。为此，本文提出一种新型的 SSFF 模块，能更好地融合多尺度特征图，即实现深层特征图的高层信息与浅层特征图的细节信息的融合，且融合后的特征图保持相同的宽高比。

本文基于骨干网络生成的多尺度特征图（P3、P4、P5）构建序列表征，捕捉不同细节 / 尺度层级下的图像内容。首先，使用标准差递增的一系列高斯核对 P3、P4、P5 特征图进行卷积操作，计算公式如下：

标签

#YOLO