利索能及
我要发布
收藏
专利号: 2023101202052
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-05-14
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于融合注意力机制的图像识别方法,其特征在于,包括:获取待识别的图像,将待识别图像输入到训练好的图像描述模型中,得到图像描述结果;根据图像描述结果对图像进行识别,得到图像识别结果;

对图像描述模型进行训练的过程包括:

S1:获取MSCOCO图像数据集,并对图像数据集中的图像进行预处理;

S2:将预处理后的图像输入到Resnet101网络中进行特征提取,得到初始特征图;

S3:分别采用通道注意力机制和空间注意力机制对初始特征图进行加权处理,将通道注意特征和空间注意力特征进行并行融合处理,得到融合特征图;

S4:采用两层长短期记忆网络对融合特征图进行识别解码,得到图像描述结果;

S5:根据识别结果计算模型的损失函数;

S6:采用强化学习损失策略对模型的参数进行优化,当损失函数最小时完成模型的训练。

2.根据权利要求1所述的一种基于融合注意力机制的图像识别方法,其特征在于,采用通道注意力机制对初始特征进行处理的过程包括:采用最大值池化和平均池化分别对初始特征进行处理,得到图像的最大值特征和平均特征;将最大值特征和平均特征分别输入到多层感知机中进行降维处理,将降维后的最大值特征和平均特征进行聚合,并通过激活函数进行激活,得到通道注意特征。

3.根据权利要求1所述的一种基于融合注意力机制的图像识别方法,其特征在于,采用空间注意力机制对初始特征进行处理的过程包括:将初始图像特征输入到多层感知机中提取特征权重,将提取的特征权重通过批量归一化层和平均池化层对每个通道上的信息进行融合,得到空间位置注意权重;根据空间位置注意权重计算图像的空间注意力特征。

4.根据权利要求1所述的一种基于融合注意力机制的图像识别方法,其特征在于,将通道注意特征和空间注意力特征进行并行融合处理的公式为:其中,F表示初始输入特征,FC(F)表示通道注意特征,FS(F)表示空间注意特征,λC和λS为两个超参数, 表示空间注意和通道注意融合之后的特征。

5.根据权利要求1所述的一种基于融合注意力机制的图像识别方法,其特征在于,采用两层长短期记忆网络对融合特征图进行识别解码的过程包括:两层长短期记忆网络结合多头注意力机制组成解码器;将编码器提取的图像特征作为查询矩阵,第一个长短期记忆网络的输出作为键矩阵和值矩阵输入到多头点积注意模块中进行注意力融合;将注意力图像特征以及上一个时刻的隐藏状态一起输入到第二个长短期记忆网络中,计算得到在词汇表上的单词分布概率,根据单词分布概率得到一个单词序列;根据单词序列生成图像描述结果。

6.根据权利要求5所述的一种基于融合注意力机制的图像识别方法,其特征在于,长短期记忆网络包括四个模块,分别为遗忘门ft、输入门it、输出门ot以及细胞状态ct;长短期记忆网络对输入数据进行计算的公式为:ft=σ(Wfhht‑1+Wfxxt+bf)

it=σ(Wihht‑1+Wixxt+bi)

ot=σ(Wohht‑1+Woxxt+bo)

gt=tanh(Wghht‑1+Wgxxt+bg)

ct=ft⊙ct‑1+it⊙gt

ht=ot⊙tanh(ct)

其中,σ表示Sigmoid激活函数,gt表示细胞状态的候选向量,ht表示当前时刻的隐藏状态,xt表示当前时刻LSTM的输入,Wfh、Wfx、Wih、Wix、Woh、Wox、Wgh以及Wgx均为可学习的权重矩阵,bf、bi、bo以及bg均为偏置向量,⊙表示元素相乘。

7.根据权利要求5所述的一种基于融合注意力机制的图像识别方法,其特征在于,进行注意力融合的计算公式为:fmh‑att(Q,K,V)=Concat(head1,...,headH)headi=fdot‑att(Qi,Ki,Vi)

Q=vt

其中,fdot‑att表示点积注意,Q为查询矩阵,K为键矩阵,V为值矩阵,为平均图像特征,vt为编码器图像特征, 为注意力图像特征, 为上一个时刻的隐藏状态,we为词典∑的嵌入矩阵,Пt为时刻t的独热编码。

8.根据权利要求5所述的一种基于融合注意力机制的图像识别方法,其特征在于,第二个长短期记忆网络对数据进行处理的公式为:其中, 和 分别为第一个LSTM的隐藏状态和第二个LSTM的隐藏状态,为注意力图像特征,y1:t‑1为单词序列,Wy为权重,by为偏置。

9.根据权利要求1所述的一种基于融合注意力机制的图像识别方法,其特征在于,模型的损失函数表达式为:其中,LXE(θ)表示交叉熵损失,θ表示模型可学习参数,T表示词嵌入向量长度,pθ表示模型概率分布, 表示真实值, 表示真实的描述序列。