1.一种基于多阶段生成对抗网络的文本生成图像方法,其特征在于,包括:
获取文本信息,并将其输入文本编码器,提取句子向量和单词向量;
将句子向量进行条件增强处理得到条件向量,将条件向量与噪声向量进行向量拼接,得到拼接向量;
将单词向量和拼接向量输入生成网络,经初始图像生成阶段、第一细化阶段、第二细化阶段的处理,分别输出第一分辨率图像、第二分辨率图像以及第三分辨率图像;
将第一分辨率图像、第二分辨率图像和第三分辨率图像输入判别网络,提取图像特征,将图像特征与条件向量进行空间拼接,得到的向量经过卷积处理后,引入目标损失函数,强化生成图像与真实图像的相似度;
所述目标函数,将支持向量机的分类思想引入生成对抗网络,使用铰链损失来稳定训练过程,第i个阶段的判别器损失函数如下:其中是从高斯分布采样的噪声向量,e是句子向量,λ代表平衡超参数且0≤λ≤1,Pg、Pr、Pmis分别代表合成数据分布、真实数据分布和不匹配数据分布;加入混合零中心梯度惩罚后的第i个判别器的目标函数如下:整个判别网络的目标函数为:
其中α0、α1、α2为各判别器的平衡参数;此外,使用DTGAN与网络中视觉损失函数不同的基于平滑平均绝对误差(L1损失)函数来生成视觉损失,公式如下:其中, 和 表示由判别器提取的真实图像和生成图像的图像
特征,通过使用平滑L1损失以最小化真实图像特征和生成图像特征之间的距离;添加视觉损失函数的第i个生成器的目标函数:其中o为超参数,为正数,整个生成网络的目标函数:
其中η0、η1、η2为各个生成器的平衡参数。
2.根据权利要求1所述的基于多阶段生成对抗网络的文本生成图像方法,其特征在于,所述第一分辨率图像、第二分辨率图像以及第三分辨率图像生成的过程,包括:将单词向量和拼接向量输入生成网络的初始图像生成阶段,经单词级深度融合处理,输出初始图像特征向量,将初始图像特征向量卷积处理得到第一分辨率图像;
将单词向量输入生成网络的第一细化阶段,采用传统注意力机制将单词向量转换到图像特征的公共语义空间中,根据初始图像特征向量计算得到单词上下文向量与初始图像特征向量拼接,输出第一图像特征向量,将第一图像特征向量卷积处理得到第二分辨率图像;
将单词向量输入生成网络的第二细化阶段,采用传统注意力机制将单词向量转换到图像特征的公共语义空间中,根据第一图像特征向量计算得到单词上下文向量与第一图像特征向量拼接,输出第二图像特征向量,将第二图像特征向量卷积处理得到第三分辨率图像。
3.根据权利要求1所述的基于多阶段生成对抗网络的文本生成图像方法,其特征在于,所述提取单词向量的过程,包括:采用基于双向长短期记忆的文本编码器对文本信息进行编码,赋予单词权重,并为每个单词生成两个隐状态向量,两个隐状态向量首尾连接组成新的单词向量。
4.根据权利要求1所述的基于多阶段生成对抗网络的文本生成图像方法,其特征在于,所述目标损失函数包括基于平滑L1函数的视觉损失函数。
5.一种基于多阶段生成对抗网络的文本生成图像系统,其特征在于,包括:
采集和特征提取模块,其被配置为:获取文本信息,并将其输入文本编码器,提取句子向量和单词向量;
预处理模块,其被配置为:将句子向量进行条件增强处理得到条件向量,将条件向量与噪声向量进行向量拼接,得到拼接向量;
生成网络模块,其被配置为:将单词向量和拼接向量输入生成网络,经初始图像生成阶段、第一细化阶段、第二细化阶段的处理,分别输出第一分辨率图像、第二分辨率图像以及第三分辨率图像;
判别网络模块,其被配置为:将第一分辨率图像、第二分辨率图像和第三分辨率图像输入判别网络,提取图像特征,将图像特征与条件向量进行空间拼接,得到的向量经过卷积处理后,引入目标损失函数,强化生成图像与真实图像的相似度;
所述目标函数,将支持向量机的分类思想引入生成对抗网络,使用铰链损失来稳定训练过程,第i个阶段的判别器损失函数如下:其中是从高斯分布采样的噪声向量,e是句子向量,e代表平衡超参数且,0≤λ≤1,Pg、Pr、Pmis分别代表合成数据分布、真实数据分布和不匹配数据分布;加入混合零中心梯度惩罚后的第个判别器的目标函数如下:整个判别网络的目标函数为:
其中α0、α1、α2为各判别器的平衡参数;此外,使用DTGAN与网络中视觉损失函数不同的基于平滑平均绝对误差(L1损失)函数来生成视觉损失,公式如下:其中, 和 表示由判别器提取的真实图像和生成图像的图像
特征,通过使用平滑L1损失以最小化真实图像特征和生成图像特征之间的距离;添加视觉损失函数的第i个生成器的目标函数:其中o为超参数,为正数,整个生成网络的目标函数:
其中η0、η1、η2为各个生成器的平衡参数。
6.根据权利要求5所述的基于多阶段生成对抗网络的文本生成图像系统,其特征在于,所述生成网络模块包括:初始图像生成模块、第一细化模块以及第二细化模块;
所述初始图像生成模块,其被配置为:接收将单词向量和拼接向量,经单词级深度融合处理,输出初始图像特征向量,将初始图像特征向量卷积处理得到第一分辨率图像;
所述第一细化模块,其被配置为:接收单词向量,采用传统注意力机制将单词向量转换到图像特征的公共语义空间中,根据初始图像特征向量计算得到单词上下文向量与初始图像特征向量拼接,输出第一图像特征向量,将第一图像特征向量卷积处理得到第二分辨率图像;
所述第二细化模块,其被配置为:接收将单词向量,采用传统注意力机制将单词向量转换到图像特征的公共语义空间中,根据第一图像特征向量计算得到单词上下文向量与第一图像特征向量拼接,输出第二图像特征向量,将第二图像特征向量卷积处理得到第三分辨率图像。
7.根据权利要求6所述的基于多阶段生成对抗网络的文本生成图像系统,其特征在于,所述第一细化模块包括第一向上模块,第一向上模块包括上采样层和深度融合层,所述第一向上模块其被配置为:首先将初始图像特征向量在上采样层进行上采样,然后在深度融合层与细粒度的文本特征进行融合,得到的融合特征与直接来自上采样层的图像特征进行相加,作为第一向上模块的输出;
和/或,
所述第二细化模块包括第二向上模块,第二向上模块包括上采样层和深度融合层,所述第二向上模块其被配置为:首先将第一图像特征向量在上采样层进行上采样,然后在深度融合层与细粒度的文本特征进行融合,得到的融合特征与直接来自上采样层的图像特征进行相加,作为第二向上模块的输出。
8.根据权利要求5所述的基于多阶段生成对抗网络的文本生成图像系统,其特征在于,所述判别网络模块包括卷积模块和向下模块,通过卷积模块和向下模块对第一分辨率图像、第二分辨率图像以及第三分辨率图像进行特征提取,把获得的图像特征与条件增强的句子向量进行空间拼接,进行两个卷积操作后预测对抗损失。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1‑4中任一项所述的基于多阶段生成对抗网络的文本生成图像方法中的步骤。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1‑4中任一项所述的基于多阶段生成对抗网络的文本生成图像方法中的步骤。