利索能及
我要发布
收藏
专利号: 2023109496355
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:授权未缴费
更新日期:2026-03-05
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于自监督模态优化的图像描述生成方法,其特征在于,包括:获取待描述的图像并将其输入到训练好的自监督模态优化图像描述模型中,生成图像的文字描述;

自监督模态优化图像描述模型的过程包括:

S1:获取训练图像和对应的文本描述;

S2:采用图像编码器提取图像的全局特征和网格特征,采用文本编码器提取文本描述的文本特征;

S3:采用视觉精炼模块对网格特征进行处理,得到精炼图像网格特征;

S4:将图像全局特征和文本特征输入到跨模态特征优化器中进行处理,得到优化图像全局特征;

S5:采用解码器对优化图像全局特征和精炼图像网格特征进行处理,生成文本描述;

S6:计算模型总损失并根据模型总损失调整模型参数,得到训练好的自监督模态优化图像描述模型。

2.根据权利要求1所述的一种基于自监督模态优化的图像描述生成方法,其特征在于,所述视觉精炼模块由多个堆叠的transformer块构成;前一个transformer块的输出为下一个transformer块的输入,最后一个transformer块的输出为最终的精炼图像网格特征;

transformer块对网格特征进行处理的过程包括:

采用多头注意力机制对不同的网格特征进行注意力计算,得到增强网格特征;

将增强网格特征输入到前馈网络中进行处理,将前馈网络的输出进行残差连接和层归一化处理,得到块精炼网格特征。

3.根据权利要求1所述的一种基于自监督模态优化的图像描述生成方法,其特征在于,所述跨模态特征优化器包括两个生成器和两个鉴别器;

采用第一生成器将图像全局特征映射到文本域,采用第二生成器将文本特征映射到图像域;采用两个鉴别器鉴别原始特征和映射后特征之间的区别;

对跨模态特征优化器进行对抗训练并分别计算图像到文本的对抗损失和文本到图像的对抗损失;训练完成后,选择第一生成器输出的特征作为优化图像全局特征。

4.根据权利要求3所述的一种基于自监督模态优化的图像描述生成方法,其特征在于,图像到文本的对抗损失和文本到图像的对抗损失分别表示为:其中, 表示图像到文本的对抗损失, 表示文本到图像的对抗损失,DisS(fS,rec)表示将重构的文本特征输入到文本鉴别器进行鉴别的结果,DisS(fS,fake)表示将映射的文本特征输入到文本鉴别器进行鉴别的结果,DisI(fI,rec)表示将重构的图像特征输入到图像鉴别器进行鉴别的结果,DisI(fI,fake)表示映射的图像特征输入到图像鉴别器进行鉴别的结果。

5.根据权利要求3所述的一种基于自监督模态优化的图像描述生成方法,其特征在于,第一生成器和第二生成器具有相同的结构和独立的参数;其结构均为一个全连接层和一个激活函数。

6.根据权利要求1所述的一种基于自监督模态优化的图像描述生成方法,其特征在于,所述解码器由多个堆叠的transformer块构成;最后一个transformer块的输出通过softmax函数,生成预测单词;每个transformer块包括融合模块、掩码多头注意力层和多头交叉注意力层。

7.根据权利要求6所述的一种基于自监督模态优化的图像描述生成方法,其特征在于,所述融合模块用于融合优化图像全局特征和单词嵌入,表示为:其中, 表示第l个transformer块中融合模块输出的t时刻全局上下文信息, 表示l‑1个transformer块的输出,WF表示可学习参数,fR表示优化图像全局特征,LayerNorm()表示层归一化处理,ReLU()表示激活函数,[;]表示拼接;第一个融合模块的输入为优化图像全局特征和当前时刻前生成的所有单词的嵌入。

8.根据权利要求6所述的一种基于自监督模态优化的图像描述生成方法,其特征在于,所述掩码多头注意力层用于对融合模块输出的全局上下文信息进行自注意上下文编码,表示为:其中, 表示第l个transformer块中掩码多头注意力层输出的上下文编码, 表示第l个transformer块中融合模块输出的t时刻全局上下文信息,MultiHead()表示多头注意力层。

9.根据权利要求6所述的一种基于自监督模态优化的图像描述生成方法,其特征在于,所述多头交叉注意力层的数据处理过程包括:拼接精炼图像网格特征和优化图像全局特征作为图像特征;将掩码多头注意力层输出的上下文编码作为查询,图像特征作为键和值进行多头注意力,得到增强图像特征;将增强图像特征输入到前馈网络,并进行残差连接和层归一化处理,得到transformer块的输出。

10.根据权利要求1所述的一种基于自监督模态优化的图像描述生成方法,其特征在于,计算模型总损失的公式为:其中, 表示模型总损失, 表示图像到文本的对抗损失, 表示文本到图像的对抗损失, 表示循环一致损失,λ表示超参数, 表示交叉熵损失。