基于频率感知孪生网络的视觉目标跟踪
在视觉目标跟踪领域,高效准确的跟踪方法一直是研究的重点。本文将介绍一种名为FAF(Frequency-Aware Feature)的快速高效跟踪器,它在目标跟踪任务中展现出了出色的性能。
1. FAF跟踪器概述
FAF跟踪器由四个模块组成:离线IoU调制、在线IoU预测器、在线分类器和更新模块。离线IoU调制通过大规模训练数据集进行预训练,学习目标尺度和位置之间的关系。在在线跟踪阶段,它为在线IoU预测器提供IoU回归分数,分类器提供分类分数。基于分类和回归排名,联合判断策略将提供优化的目标尺度和位置信息,最后更新模块更新IoU预测器和分类器。在该方法中,使用ResNet18作为骨干网络,并在ImageNet上进行预训练,同时采用特征分解和样本融合方法对其进行优化,以提高骨干网络的判别能力。
2. 频率感知孪生网络
传统的目标跟踪模型使用固定结构和固定尺度的卷积层,浅层卷积特征包含明显特征,深层卷积特征包含复杂语义特征,导致特征存在信息冗余,降低了网络的判别能力。为了解决这个问题,研究人员将频率感知功能以一种新颖的方式集成到目标跟踪中。
-
特征分解
:不同于其他跟踪方法区分不同卷积层的特征,该方法受Zhang等人的启发,对每个卷积层的特征进行分解,将卷积层中的特征分为高频特征和低频特征,其中高频特征包含语义信息。
-
特征处理
:通过压缩低频分量、处理高频和低频部分并在它们之间共享信息,可以使卷积操作更高效。低频分量的维度为(0.5h, 0.5w),是高频部分(h, w)的一半。由于低频部分被压缩,它有效地扩展了原始像素空间中的感受野,有助于识别。
-
特征更新
:在特征更新过程中,高频和低频特征可以以各自的频率进行更新,并且特征交换操作将更新不同频率之间的高频和低频特征信息。频率感知功能具有宽的低频特征图感受野,与标准特征相比,它有效地将感受野扩大了一倍,使每个频率感知特征能够收集更多的上下文信息,提高识别效率。
通过设置超参数α来控制高频和低频特征的分割比例:
[
X \in R^{c\times h\times w} \
X_H \in R^{(1 - \alpha)c\times h\times w} \
X_L \in R^{\alpha c\times \frac{h}{2} \times \frac{w}{2}}
]
其中,X表示普通特征,w和h是特征的宽度和高度,c是通道数,$X_H$和$X_L$分别是高频和低频特征。
3. 预训练和联合更新
3.1 预训练
近年来,大规模深度学习取得了突破,通常需要创建更复杂的网络结构和使用更大的训练数据集。由于训练数据集需要大量手动标注,因此基于现有数据集的数据增强方法被用于增加数据。然而,当前的数据增强方法基于同一类别,没有考虑不同类别之间的关系,无法增加数据的多样性,限制了模型的性能。
为了解决这个问题,研究人员提出了一种新颖的预训练样本融合方法,通过加权融合样本和样本标签来提高数据的多样性。具体操作步骤如下:
1. 使用高斯分布在真实边界框周围生成候选样本。
2. 计算所有候选样本与真实边界框的IoU。
3. 选择IoU > 0.7的样本作为正样本,IoU < 0.3的样本作为负样本。
4. 从正样本和负样本集合中随机选择样本进行融合,得到融合样本。融合样本的大小为两个图像的最大值。
以下是预训练样本融合的算法:
Algorithm 5: Pre-training sample fusion
Input: the image M, the ground truth bound box P (x, y, w, h), the number of fusion
samples Nfus, the number of negative samples Nneg, the number of positive samples Npos,
and interpolation strength parameter α.
1: Generate candidate samples around P (x, y, w, h) using Gaussian distribution in M
2: Calculate IoU for all candidate samples with ground truth
3: Choose Npos positive samples when IoU > 0.7
4: Choose Nneg negative samples when IoU < 0.3
5: for n = 0 to Nfus do
6:
Random choose positive sample (x1, y1) and negative sample (x2, y2) from the
corresponding sample set, respectively
7:
λ = Beta(α, α)
8:
˜x = λx1 + (1 - λ)x2
9:
˜y = λy1 + (1 - λ)y2
10:
Obtain fusion sample (˜x, ˜y)
11: end for
12: Obtain Nfus fusion samples
13: Loss = λ*criterion(outputs, y1) + (1 - λ)*criterion(outputs, y2)
α ∈(0, ∞)控制特征 - 目标对之间的插值,并从Beta分布中生成权重λ。最后,分别测量两个样本标签的损失函数,然后使用权重λ对损失函数进行加权求和。实验结果表明,数据融合可以显著提高模型的鲁棒性。
3.2 联合更新
现有的跟踪方法分别使用分类置信度(CC)和回归置信度(RC),无法代表边界框的定位精度,只能解决高CC和高RC的情况,而无法处理其他三种情况:低CC和低RC、高CC和低RC、低CC和高RC。
为了解决这个问题,研究人员设计了一种基于[24]的联合判断策略。通过对分类和回归置信度进行联合分析,最终预测结果具有更高的分类和回归置信度。假设边界框是高斯分布$P_{\hat{\theta}}(x) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x - x_e)^2}{2\sigma^2}}$,真实边界框是狄拉克δ分布$P_D(x) = \delta(x - x_g)$,使用KL散度来衡量两个概率分布的不对称性,将位置问题转化为最小化$P_D(x)$和$P_{\hat{\theta}}(x)$之间的KL散度:
[
\hat{\theta} = \arg\min_{\theta} D_{KL}(P_D(x) || P_{\hat{\theta}}(x))
]
回归信任度定义为预期边界框的IoU。阈值IoU内的候选边界框将根据其相邻边界框进行平均,以获得最终的边界框,进一步提高边界框的准确性。例如,对于第i个框$x_{1i}$的新目标位置:
[
x_{1i} := \frac{\sum_{j} \frac{x_{1j}}{\sigma_{x_{1,j}}^2}}{\sum_{j} \frac{1}{\sigma_{x_{1,j}}^2}}
]
通过结合RC和CC,可以有效解决上述三种情况。此外,基于预测的相邻边界框,可以创建更准确的最终边界框,减少由于干扰信息导致的目标丢失,提高模型在复杂场景中的鲁棒性。
4. 框架和流程
在离线训练阶段,优化后的ResNet18从融合样本中获得双向频率感知特征,浅层特征包含位置信息,深层特征包含语义信息,相关特征用于学习目标的尺度和位置。使用卷积和池化层来提高特征的判别能力。IoU调制在大规模视频和图像数据集上进行离线训练,在线监测时不进行更新。
在在线跟踪阶段,基于数据融合的对象第一帧用于初始化在线跟踪点的IoU预测器和分类器模块。与离线阶段不同,IoU预测器将从IoU调制中获得双向特征:相关帧引导特征和当前帧的目标特征。IoU预测器和分类器将返回当前帧中对象的IoU和分类分数。最后,联合决策方法根据分数进行最终预测,并使用更新模块更新IoU预测器和分类器。
5. 实验结果与讨论
5.1 实验设置
该方法使用Python编写,在配备4核4.2 GHz Intel 8700k CPU和两个11 GB NVIDIA 2080 Ti GPU的PC上以45帧/秒的速度运行。预训练数据集包括TrackingNet、OxUvA和LaSOT,所有评估数据集的网络参数相同。训练参数如下:
- 骨干网络在准备阶段冻结所有权重。
- 网络的权重衰减为0.00005,动量为0.9。
- 使用均方误差损失函数,每批64个图像对,训练40个epoch。
- 使用ADAM优化器,初始学习率为$10^{-3}$,每epoch衰减0.2。
5.2 OTB100数据集评估
将FAF跟踪器与八种先进的跟踪器(包括ECO、MDNet、ATOM等)在OTB100数据集上进行比较。结果表明,FAF具有较高的精度和成功率。与实时跟踪器ATOM(30 FPS)相比,FAF的精度和成功率分别达到90.1%和67.3%,比ATOM高1.9%和1.4%。KCF具有手工特征,速度可达160帧/秒,但由于判别能力差,跟踪精度较低。ECO和MDNet使用深度模型进行优化以提高跟踪效率,但无法满足实时跟踪要求,而FAF在速度和精度上均优于它们。
5.3 消融分析
- α值影响 :在OTB100数据集上比较不同α值对精度和速度的影响。当α为0或∞时,不进行混合样本操作,跟踪器速度会提高。当α = 1时,跟踪器性能更好,与α = 0.5相比,精度和AUC频率分别提高了0.015和0.013。
- 组件有效性 :在OTB - 2015上进行消融实验,验证FAF方法中每个组件的有效性。结果表明,每个组件都可以提高方法的性能。预训练样本融合增加了样本的多样性,提高了模型学习组间接近关系的能力,精度和AUC率分别提高了1.1%和0.8%;频率感知特征将跟踪速度提高了1.5倍,精度和AUC率分别提高了2.0%和2.2%;联合更新策略使精度和AUC率分别提高了0.7%和0.6%。
5.4 与先进跟踪器的比较
在四个具有挑战性的跟踪数据集(VOT2018、GOT10K、TrackingNet和LaSOT)上,将FAF与先进的跟踪器进行比较。
| 数据集 | 评估指标 | SiamRPN++ | ATOM | UPDT | DaSiamRPN | DRT | FAF |
| ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- |
| VOT2018 | EAO | 0.414 | 0.401 | 0.378 | 0.383 | 0.356 | 0.422 |
| | R | 0.234 | 0.204 | 0.184 | 0.276 | 0.201 | 0.179 |
| | A | 0.6 | 0.59 | 0.536 | 0.586 | 0.519 | 0.597 |
| | FPS | 35 | 30 | - | 160 | - | 45 |
| GOT10K | Pre.(0.5) | - | 0.634 | - | - | - | 0.672 |
| | Pre.(0.75) | - | 0.402 | - | - | - | 0.453 |
| | AUC | - | 0.556 | - | - | - | 0.581 |
| | FPS | - | 30 | - | - | - | 45 |
| TrackingNet | Pre. | - | 0.648 | - | - | - | 0.667 |
| | Norn.Pre. | - | 0.771 | - | - | - | 0.786 |
| | AUC | - | 0.703 | - | - | - | 0.727 |
| | FPS | - | 30 | - | - | - | 44 |
| LaSOT | AUC | - | - | - | - | - | 0.537 |
| | Precision | - | - | - | - | - | 0.601 |
在VOT2018数据集上,FAF在保持竞争力的A排名的同时,实现了最高的R和EAO评级。在GOT10K数据集上,FAF具有最高的AUC、Precision(0.5)和Precision(0.75)率。在TrackingNet数据集上,FAF在精度、归一化精度和AUC率方面均优于ATOM。在LaSOT数据集上,与SiamRPN++相比,FAF的AUC和精度率分别显著提高了4.1%和3.2%。
5.5 失败案例分析
在Singer2序列中,目标和上下文过于接近,该方法无法正确区分它们,导致目标丢失。在Tran序列的监测阶段,目标的某些情况也导致了方法的失败。
综上所述,FAF跟踪器通过频率感知孪生网络、预训练样本融合和联合判断策略等创新方法,在多个数据集上取得了优异的性能,提高了目标跟踪的精度和速度,增强了模型在复杂场景中的鲁棒性。但在一些特殊情况下仍存在失败的问题,未来可以进一步研究和改进。
基于频率感知孪生网络的视觉目标跟踪(下半部分)
6. 技术优势总结
FAF跟踪器的成功得益于其多个创新技术点,这些技术点相互配合,共同提升了目标跟踪的性能。以下是对这些技术优势的总结:
-
频率感知特征
:通过将卷积层特征分解为高频和低频部分,有效减少了信息冗余,提高了网络的判别能力。高频特征包含语义信息,低频特征经过压缩后扩展了感受野,使得每个特征能够收集更多上下文信息,从而增强了识别效率。同时,高频和低频特征可以独立更新并交换信息,进一步提升了特征的表达能力。
-
预训练样本融合
:提出的预训练样本融合方法增加了样本的多样性,让模型能够学习不同类别之间的接近关系。通过加权融合正样本和负样本,模型在训练过程中能够更好地适应各种场景,提高了模型的泛化能力和鲁棒性。
-
联合判断策略
:针对现有跟踪方法中分类置信度和回归置信度单独使用的局限性,设计了联合判断策略。通过结合分类和回归置信度,有效解决了多种复杂情况,提高了边界框的定位精度,减少了目标丢失的情况,增强了模型在复杂场景下的跟踪性能。
7. 与其他跟踪器的性能对比可视化
为了更直观地展示FAF跟踪器与其他先进跟踪器的性能差异,我们可以将之前的实验数据进行可视化。以下是一个简单的mermaid流程图,展示了在不同数据集上FAF与部分跟踪器的性能对比:
graph LR
classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
A(VOT2018):::process --> A1(FAF - EAO: 0.422):::process
A --> A2(ATOM - EAO: 0.401):::process
B(GOT10K):::process --> B1(FAF - AUC: 0.581):::process
B --> B2(ATOM - AUC: 0.556):::process
C(TrackingNet):::process --> C1(FAF - Pre.: 0.667):::process
C --> C2(ATOM - Pre.: 0.648):::process
D(LaSOT):::process --> D1(FAF - AUC: 0.537):::process
D --> D2(SiamRPN++ - AUC: 0.496):::process
从这个流程图中可以清晰地看到,在各个数据集的关键评估指标上,FAF跟踪器都表现出了明显的优势。
8. 实际应用场景分析
FAF跟踪器的高性能使其在多个实际应用场景中具有广阔的应用前景:
-
视频监控
:在安全监控领域,需要实时准确地跟踪目标对象。FAF跟踪器的高速度和高精度能够满足视频监控系统对目标的实时跟踪需求,及时发现异常行为并进行预警。例如,在商场、银行等公共场所的监控中,能够准确跟踪人员的移动轨迹,为安全管理提供有力支持。
-
自动驾驶
:在自动驾驶系统中,目标跟踪是环境感知的重要组成部分。FAF跟踪器可以帮助车辆准确识别和跟踪周围的车辆、行人等目标,为自动驾驶决策提供准确的信息。其在复杂场景下的鲁棒性能够有效应对各种交通状况,提高自动驾驶的安全性。
-
智能机器人
:智能机器人在执行任务时需要对周围环境中的目标进行跟踪。FAF跟踪器可以帮助机器人更好地识别和跟踪目标物体,实现自主导航、抓取等任务。例如,在物流仓库中,机器人可以使用FAF跟踪器跟踪货物的位置,提高物流效率。
9. 未来研究方向
尽管FAF跟踪器已经取得了优异的性能,但在一些特殊情况下仍存在失败的问题,未来可以从以下几个方面进行进一步的研究和改进:
-
处理复杂背景
:在一些背景复杂的场景中,如人群密集的街道、自然环境等,目标与背景的区分难度较大。未来可以研究如何进一步提高模型在复杂背景下的抗干扰能力,准确区分目标和背景。
-
多目标跟踪
:目前的研究主要集中在单目标跟踪,而在实际应用中,往往需要同时跟踪多个目标。未来可以将FAF跟踪器扩展到多目标跟踪领域,研究如何处理目标之间的相互遮挡、交互等问题。
-
实时性优化
:虽然FAF跟踪器已经具有较高的跟踪速度,但在一些对实时性要求极高的场景中,仍有进一步优化的空间。可以研究如何进一步提高模型的计算效率,减少处理时间,满足更严格的实时性要求。
10. 总结
本文详细介绍了基于频率感知孪生网络的FAF跟踪器,包括其组成模块、频率感知孪生网络的原理、预训练和联合更新方法、框架流程以及实验结果。通过在多个具有挑战性的数据集上的实验验证,FAF跟踪器在精度、速度和鲁棒性方面都表现出了明显的优势,与其他先进跟踪器相比具有显著的竞争力。
FAF跟踪器的创新技术点为目标跟踪领域提供了新的思路和方法,其在实际应用中的潜力巨大。然而,该方法仍存在一些不足之处,需要在未来的研究中不断改进和完善。相信随着技术的不断发展,目标跟踪技术将在更多领域得到广泛应用,为人们的生活和工作带来更多便利。
以下是一个总结表格,展示了FAF跟踪器在不同数据集上的主要评估指标:
| 数据集 | 评估指标 | FAF成绩 |
| ---- | ---- | ---- |
| VOT2018 | EAO | 0.422 |
| | R | 0.179 |
| | A | 0.597 |
| | FPS | 45 |
| GOT10K | Pre.(0.5) | 0.672 |
| | Pre.(0.75) | 0.453 |
| | AUC | 0.581 |
| | FPS | 45 |
| TrackingNet | Pre. | 0.667 |
| | Norn.Pre. | 0.786 |
| | AUC | 0.727 |
| | FPS | 44 |
| LaSOT | AUC | 0.537 |
| | Precision | 0.601 |
通过这些数据可以再次看到,FAF跟踪器在各个数据集上都取得了较好的成绩,是一种具有很高实用价值的目标跟踪方法。
超级会员免费看
1189

被折叠的 条评论
为什么被折叠?



