基于双注意力擦除和注意力信息聚合的弱监督目标检测

发布时间: 2025-07-15 04:15:21 来源：网友投稿

宋鹏鹏，龚声蓉，，钟珊，周立凡，凤黄浩

（1.苏州大学计算机科学与技术学院，江苏苏州 215000；
2.常熟理工学院计算机科学与工程学院，江苏苏州 215000；
3.吉林大学符号计算与知识工程教育部重点实验室，长春 130000）

目标检测是计算机视觉领域的热点研究之一［1］。由于卷积神经网络的迅速发展和具有完整边界框的大规模数据集的出现，基于深度学习的全监督目标检测已取得了重大进展［2-3］。然而，在实际应用中，全监督目标检测需要一个耗时耗力的过程来准备大量的完整标注数据，但是标注过程由于人为标注因素可能会带来噪声，这些因素使得大量的实际应用很难直接采用监督学习方式来解决。因此，近年来研究人员开始专注于弱监督目标检测（Weakly Supervised Object Detection，WSOD）［4］，因其仅需类别标记就可以进行训练，使得其在大量的实际应用中具有广泛的前景。

弱监督检测往往通过多示例学习（Multiple Instance Learning，MIL）来训练检测器，多示例学习假设包是示例的集合，每个包都被标记而包中的示例没有标记，正包表示包中至少有一个正样本示例，而如果包中的所有示例都是负样本则为负包。弱监督检测主要分为基于多示例学习的传统检测方法［5-7］和基于端到端多示例检测网络（Multiple Instance Detection Networks，MIDN）两类方法［8-13］。这些方法的主要过程都是首先生成大量候选区域，然后对候选区域执行多示例学习方法。虽然基于多示例学习的传统检测方法的检测速度较快，但是其多数使用手工提取特征且特征不具有鲁棒性，所以传统方法操作复杂而且检测精度无法令人满意。受益于深度卷积神经网络强大的特征提取能力，越来越多的工作使用基于端到端的多示例检测网络，使得弱监督检测的精度显著提升且无需对特征进行手工提取，极大简化了检测流程。但是由于其基于分类网络构建，而分类网络往往提取的是目标最显著性的局部特征，使得目标特征的高响应区域也主要集中在此区域，导致在某些检测场景下模型易于陷入局部最小值［14］，即倾向于稳定在最显著性的局部目标区域（如非刚性目标的头或尾部）。然而，在弱监督检测中，仅关注目标的最显著区域是不够的，如何使得模型更关注目标整体区域，进一步提高弱检测的检测精度是急需解决的关键问题。

本文构建一个端到端的弱监督检测框架DAENet，在双注意力擦除（Double Attention Erasure，DAE）模块中引入了注意力擦除，通过擦除最显著性的局部前景区域以及背景注意力区域来扩展目标的高响应区域，从而感知目标的整体。此外，为更精确地生成擦除掩码，本文设计了注意力信息聚合（Attentional Information Aggregation，AIA）模块来提取通道的全局和局部信息，并为不同尺度的目标构建空间依赖关系以增强特征图，提高定位不同目标区域的准确性。

1.1 弱监督目标检测

目前，一些弱监督检测的工作受到越来越多的关注并取得了重大进展。在基于多示例学习的传统弱监督检测方法［5-7］中，针对图像集中的目标进行手动注释较繁琐且不可靠的问题，SIVA 等［5］介绍了使用类内度量和类间度量来初始化潜在定位信息，然后使用模型漂移检测方法迭代训练目标检测器。为了挖掘背景中的隐藏信息以及抑制无用背景信息，WANG 等［6］提出通过执行概率潜在语义分析方法来学习潜在类别并通过其置信度发现潜在类别目标。针对优化过程的非凸问题，WANG 等［7］提出一种对候选区域深层特征进行凸聚类的方法，使得具有相似特征的候选区域聚集在一起。然而，如果目标被杂乱的背景包围，则正样本集可能包含明显的噪声。

由于深度卷积神经网络具有强大的特征表示能力，最近关于弱监督检测的工作［8-13，15-16］通常是利用MIDN，即通过多示例学习与深度卷积神经网络相结合来训练检测器。其中，BILEN 等［8］将深度卷积网络和多示例学习统一在一个端到端的弱监督检测网络WSDDN 中。作为对WSDDN 的改进，OICR［9］通过增加一个在线实例分类器，逐步优化所选择的候选区域。为了进一步提升检测性能，TANG 等［10］在OICR 的基础上，提出一种对候选区域的深度特征进行聚类的方法，使具有相似特征的候选区域尽可能地聚类在一起。ZENI 等［13］提出了一个知识蒸馏模块，该模块可以恢复 OICR 中的在线实例分类细化分支之间的信息损失，以及加入了一个自适应的监督聚合函数来动态调整阈值以解决样本的错误标记问题。REN 等［17］通过引入实例关联空间多样化约束和建立参数化空间丢弃块来解决实例歧义和不完全定位问题，此外还采用了顺序批量反向传播算法来提高内存效率。该方法在参数化空间丢弃块中引入了丢弃显著性区域的方法，本文在擦除目标显著性区域的基础上进一步考虑了背景区域带来的影响，并且在双注意力擦除模块中引入了另一个分支来增强特征图维护网络的分类性能，从而平衡网络的分类和定位性能。另外，ZHONG 等［18］使用带有完整注释的附加源数据集进行知识迁移，逐步对源数据集和弱注释目标数据集上的泛化器进行训练以更好地泛化目标数据集。然而，该方法需要找到符合要求的大量完整标注的源数据，使用先验知识来提升目标域的弱监督检测性能并且需要进行多次训练，训练过程比较复杂。而本文设计了两个即插即用的模块，两个模块相互协作，易于移植实现并整合到其他网络中来解决弱监督场景下目标显著性区域突出从而导致严重影响检测性能的情况。此外，一些弱监督检测工作也试图在不同方面改善弱监督检测器的性能，如生成更多高质量的候选区域［15，19-20］、改进生成监督信息的方式［9-13］、使用额外的标注或数据集［16，21-23］等。与之前的工作相比，本文将注意力擦除策略引入到DAENet 中，以此感知弱监督目标检测中目标的更大区域。此外，本文方法易于整合到其他弱监督目标检测框架中。

1.2 注意力机制

注意力机制在计算机视觉领域的应用出现在Non-Local 模型［24］中，其引入了非局部操作并使用自注意力机制来建立远程依赖关系。SENet［25］引入了Squeeze 和Excitation 模块来获得每个特征通道的重要性以增强特征。LI 等［26］通过对SENet 的改进，提出一种结合多个卷积核提取不同尺度特征的非线性方法来实现感知领域的自适应调整。为了学习增强或抑制的内容和位置信息，CBAM［27］将注意力机制同时应用于通道和空间维度。GAO 等［28］通过引入协方差来计算通道之间的关系。为减少计算开销，WANG 等［29］提出一种不降维的局部跨信道交互策略以及对一维卷积核大小的自适应选择方法。最近，DAI 等［30］提出多尺度通道注意力模块，通过结合通道的局部和全局信息获得不同尺度的目标特征信息。

1.3 擦除策略

注意力擦除机制［31-35］通过擦除最显著性的区域来感知目标的整体区域。WEI 等［34］使用分类网络来优化目标区域的方法以逐步挖掘目标区域，然而这种方法训练繁琐。ZHANG 等［31］提出了对抗性互补学习ACoL 模型，该模型利用对抗性互补学习改进类激活图，将2 个分类器网络的输出相结合从而对目标整体进行感知。为减少计算开销，与ACoL 类似，MAI 等［33］提出一个简单而有效的EIL 模型，将未擦除和擦除的数据从共享的骨干网络整合到具有共享权重的双分支网络中。为考虑像素之间的相关性，ZHANG 等［35］利用一种自上而下的机制，将高层输出作为基础监督来学习目标的位置信息。此外，CHOE 等［32］提出一个即插即用的ADL 模块来权衡分类和定位之间的性能。与ADL 不同，本文方法进一步考虑擦除背景区域，以防止高响应区域转移到非目标区域。

2.1 模型结构设计

DAENet 的整体架构如图1 所示。对于仅有图像级标注的输入图像，其对应的类别标签为Y=[y1，y2，…，yC]∈RC×1，其中C为类别总数。对于某幅图片，如果yc(1 ≤c≤C)=1，则其包含具有类标签c的目标。输入图像的候选区域表示为R={R1，R2，…，RN}，其中N为候选区域的数量。具体来说，输入图像需要经过MIDN 的分类和检测流分支，分别生成矩阵xclass∈RC×N和xdet∈RC×N。所有候选区域的分数都可以通过对应元素乘积x0=σclass(xclass)⊙σdet(xdet)来计算，其中σ表示Softmax 函数。最后任何类别c的分类得分都可以通过对所有候选区域中与c有关的分数相加得到，表示为。多示例学习分支的多类交叉熵损失为：

图1 DAENet 的整体网络框架Fig.1 The overall network framework of DAENet

多示例学习分支的输出可以通过引入优化分支和蒸馏分支进行细化［13］。从Fc7 的生成特征向量同时进入多示例学习分支、具有K个优化分支和蒸馏分支。所有的分支在结构上是相同的，但在训练中使用的监督信息是不同的。

在优化分支中，将同时考虑背景的标签信息，因此将每个优化分支的输出结果都表示为xk∈R(C+1)×N(k=1，2，…，K)。除了第1 个分支的监督信息来自于多示例学习分支外，其他任何第k-1 个分支的监督信息都来自于其上一个分支。在任何一个类别中得分最高的候选区域将被标记此类别的标签，而其他候选区域如果有较高的IoU，将被标记与相邻候选区域相同的标签，所有其余的候选区域都被用作背景或被忽略［13］。因此，第r个优化分支中的第k-1 个候选区域的监督信息为，它被用作第k个优化分支的伪标签。第k个优化分支的多类交叉熵损失为：

其中：是第r个候选区域在第k个优化分支中的损失权重，以防止训练初期不可靠的候选区域得分的影响。

对于蒸馏分支，其伪标签是通过对优化分支中K个优化分支的输出进行平均而得到的。蒸馏分支的损失函数Ldistill与优化分支相同。总损失函数可定义如下：

2.2 双注意力擦除模块

目标的较大区域可以通过擦除最显著性的注意力区域而被感知［31-33］。然而，随着迭代训练的进行，当最显著的局部前景注意力区域被掩盖时，高响应区域可能会转移到背景中。因此，受文献［32］的启发，本文设计了双注意力擦除模块，其不仅擦除显著性局部前景注意力区域来寻找整个目标，而且同时擦除背景注意力区域，以防止网络将注意力集中在背景区域。其整体结构如图2 所示。

理论研究表明，从信息经济的发展过程来看，基础层、传输层、融合层、新生层及福利层的信息经济遵循时间上的不断递进、空间上的不断扩散及程度上的不断深化的关系，下层是上层的基础，而上层又反过来促进下层的进一步发展。本文测算了基于西部各省区信息经济发展层次指数的相关系数矩阵，结果表明，信息经济各层次之间存在显著的正相关关系。

图2 DAE 模块的整体结构Fig.2 The overall structure of DAE module

DAE模块中引入了2个阈值，即前景阈值λfg∈[0，1]和背景阈值λbg∈[0，1]。自注意力图Msa∈RH×W×1首先通过对输入特征Fa∈RH×W×D进行平均计算得到，其中D、H和W分别为通道数、高度和宽度。然后将Msa中大于Tfg的对应元素置为0，其他置为1，则由此生成前景擦除掩码Mfg，其中Tfg=λfg·max(Msa)。与前景注意力擦除方法相反，背景擦除掩码Mbg是通过将Msa中小于阈值Tbg元素置为0，其余置为1，其中Tbg=λbg·max(Msa)。因此，总擦除掩码为：

其中：⊗表示对应元素相乘。

此外，DAE 模块还引入了另一个分支，通过对Msa进行Sigmoid 函数操作来生成增强图Mem，以维护分类的性能。通过设置λdrop_rate，网络模型可以在Mdrop和Mem之间随机选择，决定是否使用注意力消除，注意力擦除将有助于定位性能，而另一种则对分类性能起着重要作用，最后将选定的结果作用到输入特征上。

2.3 注意力信息聚合模块

DAE 的效果依赖于生成的擦除掩码的准确性，为了提高准确性，本文受文献［30］启发，设计了注意力信息聚合模块。AIA 模块的整体结构如图3 所示。输入特征Fb∈RH×W×D，首先进行全局平均池化（Global Average Pooling，GAP），然后进行通道衰减（Channel Attenuation）模块（两次1×1 的卷积运算），最后生成全局通道向量fglobal∈R1×1×D作为输出，此外在该过程中设置通道衰减率r以降低计算的复杂性。同时，对Fb进行通道衰减来获得flocal∈RH×W×D的局部通道信息。经过2 次运算可以得到通道权重，首先通过广播加法对fglobal和flocal进行计算，然后使用Sigmoid 函数。最终的输出可以通过式（5）获得：

图3 AIA 模块的整体结构Fig.3 The overall structure of AIA module

其中：σ、⊕和⊗分别表示 Sigmoid 函数、广播加法和逐元素乘法。

此外，通过构建特征的空间依赖关系可以使网络重点关注的那些区域位置有关键信息，这对于训练时缺乏位置标签的弱监督检测非常重要。所以，为了进一步提高物体区域的定位性能，本文对输入特征图构建目标空间维度的依赖关系。通道平均池化（CAP）和通道最大池化（CMP）同时对输入特征进行操作，然后将其输出在通道维度中进行拼接。随后将拼接的结果通过一个7×7 卷积层，并根据Sigmoid 函数获取空间信息Ms。但是简单地将空间信息进行加和可能会影响模型精度，这是由于经过Sigmoid 提取空间信息后的输出权重为归一化的特征图，点乘后会使得特征图的输出响应变弱。故而本文进行点乘之后再与原始特征相加，最终注意力信息聚合模块的输出可以通过式（6）计算：

3.1 数据集和评价指标

本文运用的数据集和评价指标如下：

1）数据集。在2个广泛使用并具有挑战性的数据集上进行了实验：PASCAL VOC 2007［36］和 VOC 2012［37］，两者都包含20 个目标类别。对于VOC 2007，其包含24 640 个标记的对象和9 963 张图像，其中5 011 张图像属于训练验证集trainval，4 952 张图像属于测试集test。对于VOC 2012，其包含22 531 张图像，其中11 540 张图像属于训练验证集，10 991 张图像属于测试集。对于每一个数据集，本文实验都在训练验证集进行训练，并在测试集进行评估检测结果。

2）评价指标。本文在实验中使用2 个指标进行评估，即平均精度（mean Average Precision，mAP）和正确定位（Correct Localization，CorLoc）。mAP 用于衡量检测器在目标检测中的检测精度，CorLoc 表示正确定位的图像数量占总图像数量的百分比，用于衡量定位精度［8］。根据PASCAL 标准，在评估中只有当一个预测框与真值框的IoU 大于50%时才认为其是正确的。为进行公平的比较，本文算法在test 集上评估mAP，在trainval 集上评价CorLoc。

3.2 实验

实验在NVIDIA Tesla P100 的显卡上通过PyTorch 框架进行。DAENet 整体网络在基准模型为Boosted-OICR 的基础上建立，其骨干网络是在ImageNet 数据集上预先训练的VGG16。为了公平起见，所有的设置都与基准模型相同。实验中使用Selective Search［38］为每个图像生成初始候选区域。在训练阶段，实验设置K=3 来优化实例分类器。此外，本文将AIA 模块插入到VGG16 的conv4-3 层后面。对于DAE 模块，参照文献［32］将λfg设为80%，并将λdrop_rate设为75%，根据消融实验，本文将λbg设为5%。在AIA 模块中，通道衰减率r被设定为16。在评估过程中，最终结果是从优化和蒸馏分支的平均输出中得到。在训练时只使用图像级别的标签而不使用图像的边框注释，但在测试时使用图像完整标注进行评估。

3.3 消融实验

本文在数据集VOC 2007 上进行消融实验并使用mAP 进行评估。

3.3.1 骨干网络中的DAE 位置实验

首先对DAE 模块在网络结构中的插入位置进行实验，结果如表1 所示。可以看到：当DAE 放置到VGG16 的conv4-3 层时性能最好，与Boosted-OICR相比mAP 提高了0.8%。但当把DAE 放置到pool2、pool3 或conv5-3 层时网络的性能下降。这很可能是由于网络低层的注意力一般集中在目标的纹理信息上，而在网络高层中擦除显著性特征后由于缺乏后续特征提取层使得目标的其他高响应特征难以被激活，因此这两者都不能为网络训练提供有用的信息。

表1 DAE 模块的插入位置对网络性能的影响Table 1 Effect of DAE module insertion location on network performance %

3.3.2 DAE 和AIA 的有效性实验

在实验网络模型中DAE 和AIA 的有效性如表2 所示。由DAE 的实验结果显示，当将显著性局部前景区域和部分背景区域一起擦除时网络的检测性能提高了0.6 个百分点，并且mAP 达到了50.3%。在AIA 中进一步构建空间依赖关系后，mAP 从49.6%提高到50.0%，这表明空间注意力在弱监督检测中起着重要作用。实验结果表明，AIA 和DAE 协同工作可以提高整个DAENet的性能。在表2 中，N/A 表示未添加任何模块，w/和w/o 分别表示with 和without。

表2 DAE 和AIA 的有效性实验结果Table 2 Experimental results of the effectiveness of DAE module and AIA module %

3.3.3 DAE 中背景阈值参数的设定

为了确定DAE 中背景阈值λbg的最佳阈值，本文进行了不同设置实验，如图4 所示。从图4 可以看出：背景阈值λbg很大程度上影响了检测性能。当λbg设置为5%时该模型性能表现最佳，当不断增加该值时网络性能会逐渐变差。这可能是由于当背景阈值过大时网络会将更多的目标区域误认为是背景区域，造成重要的信息也被擦除从而影响检测的性能。

图4 不同阈值对检测性能的影响Fig.4 Effect of different threshold on detection performances

3.4 与其他弱监督目标检测方法的对比

本文分析了DAENet 与Boosted-OICR 相比在一些非刚性目标的高响应区域特征图的情况，可视化情况如图5 所示。本文提取了主干网络VGG16 的conv5-3 层的特征图，并将显著性的特征进行可视化。可以发现：Boosted-OICR 方法的高响应区域主要集中在非刚性物体的最显著性的区域，导致最终检测结果不完整。本文方法可以有效扩展最显著性的区域并激活其他显著性较低的区域，以尽可能地定位目标整体。

图5 非刚性目标的高响应区域特征图的可视化Fig.5 Visualization of high response region feature maps of non-rigid objects

此外，在数据集VOC 2007 和VOC 2012 上，本文将DAENet 与其他最近的弱监督目标检测方法进行了实验比较，在数据集VOC 2007 上的mAP 和CorLoc 如表3 和表4 所示。可以看出：本文方法的mAP 达到了50.5%，CorLoc 达到了66.6%。特别地，对于一些非刚性目标，如cat、dog、horse 和people，本文方法的mAP 分别比Boosted-OICR 提高了19.6、5.5、3.6 和11.3 个百分点，这也充分证明了本文算法可以有效地扩展目标的显著性局部区域，从而感知目标的整体。此外，在数据集VOC 2012 的检测结果如表5 所示，本文方法的mAP 取得了47.4%的检测结果，CorLoc 取得了67.3%的检测结果，与Boosted-OICR 相比，DAENet 的mAP 和CorLoc 分别高出1.3和1.4 个百分点。DAENet 与其他最近的弱监督检测方法相比也显示出有竞争力的结果。然而从表3、表4 也可以发现：对于一些特殊的非刚性目标如bird、cow 和sheep，与最近的弱监督方法相比本文算法在准确度上提升幅度较小，对于如bird 等此类图像总是由复杂的场景和小目标组成目标，易受擦除机制的影响使得后续该目标高响应区域减弱，而cow 和sheep等目标通常成群出现，易于将多个目标的高响应区域相连，这些因素都会极大地影响检测结果。

表3 VOC 2007 test 集上不同WSOD 方法的mAP 比较Table 3 mAP comparison of different WSOD methods on VOC 2007 test set %

表4 VOC 2007 trainval 集上不同WSOD 方法的CorLoc 比较Table 4 CorLoc comparison of different WSOD methods on VOC 2007 trainval set %

表5 VOC 2012 数据集上不同WSOD 方法的mAP 和CorLoc 的比较Table 5 Comparison of mAP and CorLoc of different WSOD methods on the VOC 2012 data set %

本文将双注意力擦除和注意力信息进行聚合，提出一种端到端弱监督检测框架DAENet 来处理弱监督检测问题。通过扩展目标的最显著性区域提高整体网络模型的性能，双注意力擦除采用了注意力擦除方法来擦除最显著性的前景注意力区域，同时擦除部分背景注意力区域，使整体网络模型能够尽可能地关注目标的整体区域。在此基础上，将注意力信息聚合模块通道中的全局特征和局部特征进行聚合，通过引入空间依赖性来辅助生成更加精准的注意力擦除掩码，从而提高检测精度。实验结果表明，DAENet 框架通过双注意力擦除和注意力信息聚合的协作能够明显提高检测性能，且在一些非刚性目标上的精度也有明显提高。下一步将对弱监督检测中的小目标进行研究，以提高小目标的检测精度。

猜你喜欢示例分支注意力让注意力“飞”回来小雪花·成长指南(2022年1期)2022-04-092019年高考上海卷作文示例新世纪智能(语文备考)(2019年10期)2019-12-18常见单位符号大小写混淆示例山东冶金(2019年5期)2019-11-16巧分支与枝学生天地(2019年28期)2019-08-25常见单位符号大小写混淆示例山东冶金(2019年1期)2019-03-30“全等三角形”错解示例中学生数理化·七年级数学人教版(2018年9期)2018-11-09一类拟齐次多项式中心的极限环分支数学物理学报(2018年1期)2018-03-26“扬眼”APP:让注意力“变现”传媒评论(2017年3期)2017-06-13A Beautiful Way Of Looking At Things第二课堂(课外活动版)(2016年2期)2016-10-21生成分支q-矩阵的零流出性山西大同大学学报(自然科学版)(2014年3期)2014-01-23

推荐访问:注意力聚合擦除