1.跨模态的图像多风格字幕生成方法,其特征是,包括:
获取待生成字幕的图像;
将待生成字幕的图像,输入到预先训练好的多风格字幕生成模型中,输出图像的多风格字幕;所述预先训练好的多风格字幕生成模型,是基于对抗生成网络训练后得到的;训练步骤包括:先对多风格字幕生成模型的表达图像客观信息的能力进行训练,然后对多风格字幕生成模型的生成风格化字幕的能力进行训练。
2.如权利要求1所述的方法,其特征是,所述对抗生成网络,包括:
依次连接的字幕生成器和判别器模块;
所述字幕生成器,包括:依次连接的编码器和解码器;
所述判别模块,包括:客观信息判别器和风格信息判别器,客观信息判别器和风格信息判别器的输入端均与解码器的输出端连接。
3.如权利要求2所述的方法,其特征是,所述编码器,包括:若干个串联的编码层,每个编码层均包括依次连接的多头注意力机制模块、第一层标准化模块、前馈神经网络和第二层标准化模块;其中,多头注意力机制模块的输入端还与第一层标准化模块的输入端连接,第一层标准化模块的输出端还与第二层标准化模块的输入端连接;
或者,
所述编码器的工作原理是:编码器将经过卷积神经网络处理的图像特征作为输入,并经过由多头注意力模块、标准化层、前向神经网络组成的多个编码层进行处理,得到最终的图像表示。
4.如权利要求2所述的方法,其特征是,所述解码器,包括依次串联的输入层、加法器、掩码多头注意力机制模块、第三层标准化模块、编码器-解码器注意力模块、第四层标准化模块、第二前馈神经网络模块、第五层标准化模块、Softmax层和输出层;
所述加法器的输入端还与风格标志器连接,所述加法器的输出端还与第三层标准化模块连接,所述第三层标准化模块的输出端还与第四层标准化模块的输入端连接,所述第四层标准化模块的输出端还与第五层标准化模块的输入端连接;所述编码器-解码器注意力模块的输入端还与编码器的第二层标准化模块的输出端连接;
或者,
所述解码器的工作原理是:解码器将编码器的输出、前一时刻生成的单词以及风格标志作为输入,经过由多头注意力、标准化层、编码器-解码器注意力以及前馈神经网络组成的解码层,最终标准化层的输出输入到线性层并经过Softmax函数,得到概率分布;最后,模型通过查表的方式得到当前时刻的输出词汇。
5.如权利要求2所述的方法,其特征是,所述客观信息判别器,包括:卷积神经网络,所述卷积神经网络的输入端用于输入待生成字幕的图像,所述卷积神经网络的输出端用于输出第一特征图,将第一特征图嵌入字幕生成器生成的字幕后,得到第二特征图,将第二特征图经过两个分支的卷积处理和最大池化处理,分别得到第三特征图和第四特征图,将第三特征图和第四特征图均通过带有sigmoid函数的多层感知机处理,得到第一得分;
或者,
所述风格信息判别器,包括:串联的第一LSTM神经网络和第二LSTM神经网络;第一LSTM神经网络的输入端用于输入真实表述字幕,第一LSTM神经网络的输出端得到真实表述字幕的向量表示,将真实表述字幕的向量表示输入到第二LSTM神经网络中用于初始化第二LSTM中的初始时刻的隐状态h0,第二LSTM神经网络还用于输入每一时刻的单词,最后,第二LSTM神经网络的输出端输出的数据输入到带有sigmoid函数的多层感知机处理,得到第二得分。
6.如权利要求1所述的方法,其特征是,所述对多风格字幕生成模型的表达图像客观信息的能力进行训练;具体步骤包括:将字幕生成器和客观信息判别器组成第一生成对抗网络框架;
构建第一训练集,所述第一训练集为已知图像表达字幕的图像;
第一训练集的图像输入到字幕生成器中,字幕生成器生成字幕;
将字幕生成的字幕与已知的图像表达字幕输入到客观信息判别器中进行真假判断,当客观信息判别器判断成功率等于设定阈值时,停止判断,得到训练好的字幕生成器。
7.如权利要求1所述的方法,其特征是,对多风格字幕生成模型的生成风格化字幕的能力进行训练;具体步骤包括:将解码器和风格信息判别器组成第二生成对抗网络框架;
构建第二训练集,所述第二训练集为未配对的风格语料数据集;
将风格语料和风格语料对应的风格标签,均输入到解码器中,解码器生成风格语料;
将生成的风格语料与已知的风格语料均输入到风格信息判别器中进行真假判断,当风格信息判别器判断成功率等于设定阈值时,停止判断,得到训练好的解码器。
8.跨模态的图像多风格字幕生成系统,其特征是,包括:
获取模块,其被配置为:获取待生成字幕的图像;
生成模块,其被配置为:将待生成字幕的图像,输入到预先训练好的多风格字幕生成模型中,输出图像的多风格字幕;所述预先训练好的多风格字幕生成模型,是基于对抗生成网络训练后得到的;训练步骤包括:先对多风格字幕生成模型的表达图像客观信息的能力进行训练,然后对多风格字幕生成模型的生成风格化字幕的能力进行训练。
9.一种电子设备,其特征是,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征是,用于存储计算机指令,所述计算机指令被处理器执行时,完成权利要求1-7任一项所述的方法。