1.一种基于补丁语义亲和力增强的CAM优化方法,其特征在于,包括如下步骤:步骤1、从Vision Transformer骨干网络中提取多头自注意力权重;
步骤2、对于步骤1中提取的多头自注意力权重,使用头平均操作去除冗余信息并减少计算量,再通过全局平均池化聚合每个注意力图的全局特征,并将聚合得到的特征向量输入多层感知机中进行相互作用,多层感知机输出相同形状的特征向量,最后获得来自不同层注意力重要性的增强注意力图;
步骤3、将步骤2来自不同层注意力重要性的增强注意力图,进行平均操作来融合,并除去自注意力中类令牌对应的维度,剩下的权重作为增强后的补丁级语义亲和力矩阵;
步骤4、基于步骤3获得的补丁级语义亲和力矩阵,利用语义亲和力捕捉更多空间关系和细粒度信息的能力,从最后一层Transformer编码器块输出的补丁令牌生成类激活图CAM,并使用补丁级语义亲和力矩阵与CAM作矩阵相乘完成对CAM的优化,使CAM更加细化和精准,从而得到更优质的伪标签用于监督分割模型的训练。
2.根据权利要求1所述的一种基于补丁语义亲和力增强的CAM优化方法,其特征在于,步骤1具体包括如下步骤:步骤101、将输入图片拆分为N×N个补丁,并通过线性转换为维度D的补丁令牌序列,链接上一个维度为D的类令牌,构成ViT编码器的输入令牌序列 ;
步骤102、ViT编码器由K层编码层组成,每个编码层包含一个多头自注意力和一个多层感知机,以及两个分别用于两个子层前的层归一化,ViT编码器接收输入令牌序列 并输出令牌序列 ;
步骤103、从ViT中K层编码层的多头自注意力模块提取多头自注意力权重张量,其中H为多头自注意力头的个数。
3.根据权利要求1所述的一种基于补丁语义亲和力增强的CAM优化方法,其特征在于,步骤2具体包括如下步骤:步骤201、对于得到的多头自注意力权重张量 ,使用头平均操作去除维度H,去除冗余信息并减少计算量,得到 ;
步骤202、对于步骤201获得的头平均后的注意力图 ,在第0个维度上进行concatenate操作将K层注意力图串联起来,获得三维注意力张量 ;
步骤203、对于步骤202获得的注意力张量 ,通过全局平均池化聚合K层注意力图的全局特征,得到聚合后的长度为K的特征向量 ,并将特征向量输入多层感知机中相互作用,多层感知机输出相同形状的特征向量 ;
步骤204、获得多层感知机输出的特征向量 后,将步骤201中获得的头平均注意力张量 与特征向量 结合,公式如下:其中 表示逐元素相乘符号,通过上式可获得充分考虑不同层注意力重要性的增强注意力图 。
4.根据权利要求1所述的一种基于补丁语义亲和力增强的CAM优化方法,其特征在于,步骤3具体包括如下步骤:步骤301、基于步骤2增强注意力的结果,对增强注意力图 在第0个维度K上进行平均操作,将来自不同层的增强注意力图融合,得到融合增强注意力 ;
步骤302、对于步骤301中得到的融合增强注意力 ,除去其中类令牌对应的维度,剩下的增强注意力权重可作为增强后的补丁级语义亲和力 。
5.根据权利要求1所述的一种基于补丁语义亲和力增强的CAM优化方法,其特征在于,步骤4具体包括如下步骤:步骤401、由步骤102得知,最后一层Transformer编码层的输出令牌序列 ,去除类令牌对应维度并重排列可得补丁令牌序列 ,并执行1×1卷积操作将令牌维度变为物体类别数量,公式如下:
其中, 的输入通道为D,输出通道为物体类别数C,卷积核大小为1×1,通过上式可获得来自补丁令牌的初始类激活图 ;
步骤402、利用步骤302中的补丁语义亲和力来对初始类激活图进行优化,公式如下:通过上式可获得优化后的类激活图 ,相比初始CAM更加细化和精
准,从而得到更优质的伪标签用于监督分割模型的训练。
6.一种计算机装置,包括存储器、处理器及存储在存储器上的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现权利要求1所述方法的步骤。
7.一种计算机可读存储介质,其上存储有计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1所述方法的步骤。
8.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1所述方法的步骤。