欢迎来到利索能及~ 联系电话:18621327849
利索能及
我要发布
收藏
专利号: 2020100088022
申请人: 北方民族大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-08-22
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于上下文感知注意力的图像翻译方法,其特征在于,包括以下步骤:S1、通过卷积神经网络从图像中提取语义特征,产生特征向量x;所述语义特征是指能够识别图像中类别的显著性特征;所述卷积神经网络将输入图像提取特征为w×h×c的特征向量x,其中,w为特征向量的宽度,h为特征向量的高度,c为特征向量的通道数;

S2、对特征向量x进行三个卷积操作,卷积核的大小均为1×1×c,从而得到三个不同的n×c n×c n×c嵌入特征空间ψ(x)、ξ(x)、ζ(x),其中,ψ(x)∈R ,ξ(x)∈R 和ζ(x)∈R ,n=w×h,R为一个集合,w为特征向量的宽度,h为特征向量的高度,n为w和h的乘积,c为特征向量的通道数;

使用三个不同的嵌入特征空间能够使网络动态学习特征之间的相关性;

S3、得到三个特征空间后,对特征空间ψ(x)进行平均池化操作,对特征空间ξ(x)进行最大池化操作,从而得到ψ(x)、ξ(x)各自空间中最具象征意义的特征,即显著特征,而ζ(x)特征空间保持不变,具体如下:对特征空间ψ(x)进行平均池化,对特征空间ξ(x)进行最大池化,通过池化操作能够得到两个大小为1×c的全局特征矩阵,平均池化操作得到的全局特征矩阵包含c个平均特征,最大池化操作得到的全局特征矩阵包含c个显著特征,池化公式如下:

1×c

平均池化:A=(avePooling(ψ(x)))n,A∈R

1×c

最大池化:M=(maxPooling(ξ(x)))n,M∈R其中,A和M均为矩阵,ψ(x)、ξ(x)为嵌入特征空间,avePlooling为平均池化,maxPlooling为最大池化,w为特征向量的宽度,h为特征向量的高度,n为w和h的乘积,c为特征向量的通道数;

S4、将特征空间ψ(x)、ξ(x)经过池化操作后得到的显著特征进行矩阵计算,求出相关特征矩阵F,相关特征矩阵F能够反映图像翻译任务中需要关注的特定区域,具体如下:通过对特征空间ψ(x)平均池化得到的全局特征矩阵进行转置,再与ξ(x)最大池化得到全局特征矩阵做矩阵相乘运算,最终得到一个c×c的相关特征矩阵F,相关特征矩阵F中的Fij元素反映了第i个平均特征与第j个显著特征的相关性,相关特征矩阵F的计算公式如下:T c×c

F=AM,F∈R

T

其中,A为平均池化矩阵的转置矩阵,M为最大池化得到的全局特征矩阵,R为一个集合,c为特征向量的通道数;

S5、相关特征矩阵F和特征空间ζ(x)相乘得到非局部特征图y,目的是捕捉图像中每个位置的相关权重系数,具体如下:非局部特征图y是通过相关特征矩阵F乘以特征空间ζ(x)得到,该非局部特征图y能够捕捉图像中每个位置的相关权重系数,其计算公式如下:y=ζ(x)F;

S6、将特征向量x添加到非局部特征图y上,利用残差连接输出细化特征,从而得到上下文感知注意力特征向量O(x),上下文感知注意力特征向量O(x)能够捕获图像中需要关注的特定区域,使得图像中需要关注的特定区域进行翻译,不相关的区域维持原状,从而提高图像翻译的效果和真实性,具体如下:细化特征是将输入的特征向量x通过残差连接添加到非局部特征图y上,从而得到输入图像的上下文感知注意力特征向量O(x),O(x)的公式如下:nxc

O(x)=λ·y+x,O(x)∈R ,λ∈[0,1]

其中,λ为可训练的参数,R为一个集合,n为w和h的乘积,w为特征向量的宽度,h为特征向量的高度,c为特征向量的通道数;当λ初始化为0时,能够嵌入到任何预训练好的模型中,且不破坏其最初的网络结构;通过学习能够使非局部特征图y和特征向量x的权重进行自动调整。