利索能及
我要发布
收藏
专利号: 2023104145901
申请人: 江西师范大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-08
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种多尺度通道注意力的图像数据处理方法,其特征在于,包括以下步骤:S21:对输入数据即原始图像或特征图进行数字化处理,将提取到的特征转换为数字化,并通过张量矩阵存储,经过归一化处理使卷积神经网络收敛加快;

S22:使用全局通道注意力机制与局部通道注意力机制相结合的方法,对输入数据进行特征提取和特征融合;

S22.1:在全局通道注意力机制内使用全局平均池化、自适应选择卷积核大小的一维卷积层和Sigmoid激活函数,其中所述全局平均池化过程的计算公式为:,其中 表示全局平均池化结果,为输入图像,其尺寸

为W×H×C,W、H和C分别表示输入图像的宽、高和通道,i和j分别代表宽和高上的像素点位置;

自适应选择的计算公式为: ,其中k表示一维卷积

的卷积核大小,C表示通道数, 表示k只能取奇数,和b用于改变C和k之间的比例;

Sigmoid激活函数也称为S型生长曲线,计算公式为: ,其中x为输入;

S22.2:在局部通道注意力机制中采用的是二维卷积实现的多层感知机MLP,用于提取局部特征,MLP架构为卷积核大小为1的两个二维卷积以及中间的ReLU函数激活,输入数据经二维卷积后仅改变其通道数,第一个卷积操作的输出通道数为输入通道数的十六分之一,第二个卷积操作的输出通道数与嵌入位置通道数一致,ReLU函数通过将相应的活性值设为0,仅保留正元素并丢弃所有负元素;

S22.3:将全局注意力与局部注意力的输出进行融合操作,并使用Sigmoid函数激活数据得到最终的注意力权重,然后将激活后的数据与输入数据进行逐像素相乘;

S22.4:通过Sigmoid函数进行压缩,它将已有数据根据其范围,将任意输入压缩到区间(0, 1)中的某个值,以保证归一化;

S22.5:对输入数据与激活后的数据进行逐像素相乘操作,用来完成对输入数据的不同位置加权操作,从而更关注全局特征和局部特征。

2.根据权利要求1所述的一种多尺度通道注意力的图像数据处理方法,其特征在于,所述输入数据通过所述步骤S24中二维卷积后仅改变其通道数,且在整个MLP架构内,对输入数据的通道以一种先收缩后扩张的方式估计通道间的注意力,其中的收缩系数为r,收缩后特征尺度为H×W×C/r,使用ReLU激活函数,扩张后特征尺度为H×W×C。