买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于补丁语义亲和力增强的CAM优化方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于补丁语义亲和力增强的CAM优化方法

￥31200

专利号： 2024115142704

申请人：南京信息工程大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-06-24

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于补丁语义亲和力增强的CAM优化方法，其特征在于，包括如下步骤：步骤1、从Vision Transformer骨干网络中提取多头自注意力权重；

步骤2、对于步骤1中提取的多头自注意力权重，使用头平均操作去除冗余信息并减少计算量，再通过全局平均池化聚合每个注意力图的全局特征，并将聚合得到的特征向量输入多层感知机中进行相互作用，多层感知机输出相同形状的特征向量，最后获得来自不同层注意力重要性的增强注意力图；

步骤3、将步骤2来自不同层注意力重要性的增强注意力图，进行平均操作来融合，并除去自注意力中类令牌对应的维度，剩下的权重作为增强后的补丁级语义亲和力矩阵；

步骤4、基于步骤3获得的补丁级语义亲和力矩阵，利用语义亲和力捕捉更多空间关系和细粒度信息的能力，从最后一层Transformer编码器块输出的补丁令牌生成类激活图CAM，并使用补丁级语义亲和力矩阵与CAM作矩阵相乘完成对CAM的优化，使CAM更加细化和精准，从而得到更优质的伪标签用于监督分割模型的训练。

2.根据权利要求1所述的一种基于补丁语义亲和力增强的CAM优化方法，其特征在于，步骤1具体包括如下步骤：步骤101、将输入图片拆分为N×N个补丁，并通过线性转换为维度D的补丁令牌序列，链接上一个维度为D的类令牌，构成ViT编码器的输入令牌序列；

步骤102、ViT编码器由K层编码层组成，每个编码层包含一个多头自注意力和一个多层感知机，以及两个分别用于两个子层前的层归一化，ViT编码器接收输入令牌序列并输出令牌序列；

步骤103、从ViT中K层编码层的多头自注意力模块提取多头自注意力权重张量，其中H为多头自注意力头的个数。

3.根据权利要求1所述的一种基于补丁语义亲和力增强的CAM优化方法，其特征在于，步骤2具体包括如下步骤：步骤201、对于得到的多头自注意力权重张量，使用头平均操作去除维度H，去除冗余信息并减少计算量，得到；

步骤202、对于步骤201获得的头平均后的注意力图，在第0个维度上进行concatenate操作将K层注意力图串联起来，获得三维注意力张量；

步骤203、对于步骤202获得的注意力张量，通过全局平均池化聚合K层注意力图的全局特征，得到聚合后的长度为K的特征向量，并将特征向量输入多层感知机中相互作用，多层感知机输出相同形状的特征向量；

步骤204、获得多层感知机输出的特征向量后，将步骤201中获得的头平均注意力张量与特征向量结合，公式如下：其中表示逐元素相乘符号，通过上式可获得充分考虑不同层注意力重要性的增强注意力图。

4.根据权利要求1所述的一种基于补丁语义亲和力增强的CAM优化方法，其特征在于，步骤3具体包括如下步骤：步骤301、基于步骤2增强注意力的结果，对增强注意力图在第0个维度K上进行平均操作，将来自不同层的增强注意力图融合，得到融合增强注意力；

步骤302、对于步骤301中得到的融合增强注意力，除去其中类令牌对应的维度，剩下的增强注意力权重可作为增强后的补丁级语义亲和力。

5.根据权利要求1所述的一种基于补丁语义亲和力增强的CAM优化方法，其特征在于，步骤4具体包括如下步骤：步骤401、由步骤102得知，最后一层Transformer编码层的输出令牌序列，去除类令牌对应维度并重排列可得补丁令牌序列，并执行1×1卷积操作将令牌维度变为物体类别数量，公式如下：

其中，的输入通道为D，输出通道为物体类别数C，卷积核大小为1×1，通过上式可获得来自补丁令牌的初始类激活图；

步骤402、利用步骤302中的补丁语义亲和力来对初始类激活图进行优化，公式如下：通过上式可获得优化后的类激活图，相比初始CAM更加细化和精

准，从而得到更优质的伪标签用于监督分割模型的训练。

6.一种计算机装置，包括存储器、处理器及存储在存储器上的计算机程序，其特征在于，所述处理器执行所述计算机程序以实现权利要求1所述方法的步骤。

7.一种计算机可读存储介质，其上存储有计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求1所述方法的步骤。

8.一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求1所述方法的步骤。

推荐专利

一种语义引导的暗光图像增强方法

发明专利

￥30000

一种基于语义增强知识图谱的检索增强生成方法及装置

发明专利

￥144000

增量语义分割方法及自动驾驶图像语义分割方法

我要求购

您有专利需要变现?

我要出售

智能匹配需求，快速出售

摘要:

权利要求书:

利索能及

友情链接

关于我们

联系我们