1.一种基于文本生成图像的方法,其特征在于,包括如下步骤:步骤一,准备生成器模型和判识器模型的训练数据集;
步骤二,保持判识器模型参数为初始状态,训练生成器模型,生成器模型由并行网络分别根据对象路径和全局路径生成图像,在生成图像的过程中以学习率αg不断更新生成器模型参数θG,并计算生成器模型的损失函数;
步骤三,固定生成器模型参数,训练判识器模型,判识器模型从对象路径和全局路径两个方面并行操作图像提取特征,根据生成器模型生成的图像 以及训练数据集中的样本图像x以学习率αd不断学习更新判识器模型参数θD,进而判断图像的真伪,并计算判识器模型的损失函数;
步骤四,将生成的图像输入到卷积神经网络CNN中,获得整张图像与其匹配的文本描述的损失函数;
步骤五,将整个训练网络不断迭代N次,直到生成器模型的损失函数和和判识器模型的损失函数达到平衡状态。
2.根据权利要求1所述的一种基于文本生成图像的方法,其特征在于,为了生成更高分辨率的图像,再增加2个生成器模型和2个判识器模型,在第一生成器模型生成分辨率为64×64大小图像的基础上,重复步骤二和步骤三的操作,交替训练更新生成器模型参数θG和判识器模型参数θD,第二生成器模型生成分辨率为128×128大小的图像,第三生成器模型生成分辨率为256×256大小的图像。
3.根据权利要求2所述的一种基于文本生成图像的方法,其特征在于,所述步骤一具体如下:训练数据集包括图像中对象的标注信息和每张图片的标题 对标题 中出现的对象类别用向量σi表示,i=0,1,2,...,n;图像中每一个对象的特征向量,用ρ来表示,ρ初始化时为空向量;生成器模型和判识器模型的参数分别为θG和θD。
4.根据权利要求3所述的一种基于文本生成图像的方法,其特征在于,所述步骤二中生成器模型的训练过程如下:对给定图像的描述标题 经双向长短记忆网络处理,提取文本特征得到文本中所有词的特征矩阵e,e∈RD×T,ei表示矩阵第i个词对应的特征向量,D表示词向量的维度,T代表词文本中词的数量;
在双向长短记忆网络的最后一个隐藏层将所有词向量串联起来得到 的标题向量将图像的标题向量 标题中的对象类别标签σi以及随机的样本噪声向量z进行串联得到向量a,其中z服从正态分布;a经非线性全连接层处理得到σi的条件标签li。
5.根据权利要求4所述的一种基于文本生成图像的方法,其特征在于,所述步骤二中,根据对象路径生成图像的过程如下:在空间上将li复制为4×4分辨率大小的图像 经过多层卷积和上采样操作后生成 大小的图像,并为图像中给定的对象σi生成特征;采用空间变换网络将该对象生成的特征转化到ρ中,并定位到对应的边界框位置;重复其他对象的操作,直到标题 中出现的其他对象出现在 图像中,并对应各自的对象边界位置;
根据全局路径生成图像的过程如下:
全局路径获取各个对象的位置和标签,首先在空间尺度为16×16大小的图像上对各个对象的边界框复制对象的标签,应用卷积操作,根据各个对象的位置和标签获取图像的布局编码特征,将布局编码特征、和z连接起来,生成在4×4空间分辨率下的图像 的全局特征,同样经多个卷积层和上采样操作后得到图像结合 和 二者的信息,沿着通道轴的方向将各特征连接起来,同样经过卷积和上采样操作最终生成I64×64的图像;
生成器模型的损失函数为:
(a)无条件损失,指根据向量z生成图像得到的损失,决定生成图像的真假;
(b)有条件损失,指根据li生成图像得到的损失,决定生成图像与标题 的关系;
其中,i=1,2,3, 表示第i个生成器模型生成的图像分布PGi,
6.根据权利要求5所述的一种基于文本生成图像的方法,其特征在于,所述步骤三中判识器模型的训练过程如下:判识器模型从对象路径和全局路径两个方面并行操作图像提取特征;对象路径使用空间变换网络提取对象σi所处边界框位置的特征,提取的特征转换为空间分辨率尺寸大小为x/4图像,x为判识器模型输入的图像尺寸大小,然后沿着通道轴与该对象σi表示的具有相同特征维度的向量连接起来,经过多个卷积层操作之后,将提取的各个对象特征添加到边界框位置对应的ρ中;
判识器的全局路径工作在整张图像中,不断对图像降低其空间分辨率,一旦达到同ρ具有相同的维度,沿着通道轴连接两个向量,继续进行降采样,直到达到分辨率4×4的图像大小,模型输出的结果为0,代表输出 为假样本,输出1代表 为真样本。
7.根据权利要求6所述的一种基于文本生成图像的方法,其特征在于,所述步骤三中判识器模型的损失函数由以下部分组成:(a)无条件损失
(b)条件损失
(c)类标签损失
(d)图像中的对象损失
其中i=1,2,3,x来自真实的样本分布Pdata,来自生成样本分布PG。
8.根据权利要求7所述的一种基于文本生成图像的方法,其特征在于,所述步骤四的具体方法如下:将最后生成的分辨率256×256大小尺寸的图像调整为300×300,输入到卷积神经网络M×NCNN中,CNN中间层提取图像的局部特征矩阵f∈R ;f的每一列表示图像子区域的特征向量,M为局部特征向量的维度,N代表图像被划分为子区域的数量;CNN网络的最后一个平均池化层提取图像的全局特征向量 在平均池化层之后通过增加一个感知层将图像特征转化为文本特征的公共语义空间,用如下公式描述:其中, vi的第i列表示图像第i个子区域的特征向量; 表示整张图像的全局向量,D1表示图像-标题之间的特征空间,N代表图像中子区域的数量;W表示系数矩阵,表示系数矩阵的特征矩阵;
计算 中所有可能的单词对和图像中子区域的相似矩阵:s=eTv,s∈RT×N,T表示 中词的数量,si,j表示 中第i个词和图像第j个子区域之间的相似关系,对s归一化可得:ci是与第i个词相关的图像的子区域的动态表示:
其中, γ1是一个决定相关子区域特征关注程度的参数;
第i个词与图像的相关性定义为:
由此可得整张图像Q和 的匹配程度表示为:
其中,γ2表示最相关词与图像子区域对之间的重要程度,当γ2→∞, 就接近于对一批图像-文本对 来说, 与Qi匹配的后验概率为:其中,γ3为平滑因子;
图像与其匹配的文本描述 的损失函数定义为:
9.根据权利要求8所述的一种基于文本生成图像的方法,其特征在于,所述步骤五中,生成器模型的损失函数计算如下:判识器模型的损失函数计算如下:
其中,λ,λ1,λ2,λ3,λ4为影响系数;
将整个训练网络不断迭代N次,直到生成器模型的损失函数和和判识器模型的损失函数达到平衡状态,此时训练模型中的参数达到最优。