欢迎来到利索能及~ 联系电话:18621327849
利索能及
我要发布
收藏
专利号: 2019105489619
申请人: 北方民族大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-08-22
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种半监督多模态多类别的图像翻译方法,其特征在于,包括以下步骤:

S1、输入两个来自不同域的图像1、2以及少量标签;

S2、将输入的图像和标签都送入编码器,编码器分为内容编码器和风格编码器,利用解耦表示学习从风格编码器和内容编码器中,将图像分别解耦出风格编码和内容编码;

S3、把风格编码输入至对抗自编码器中,以完成图像多类别训练;把内容编码输入至内容对抗学习网络中,以完成图像多模态变换训练;

S4、通过拼接风格编码和内容编码实现图像的重构和多模态的变换。

2.根据权利要求1所述的一种半监督多模态多类别的图像翻译方法,其特征在于:在步骤S1中,两个来自不同域的图像指的是该两个图像在内容和风格上存在差异性;另外,图像分为有标记标签样本和未标记标签样本,通过对样本输入少量标签,能够使得准确度有所提升。

3.根据权利要求1所述的一种半监督多模态多类别的图像翻译方法,其特征在于:在步骤S2中,编码器将输入的两个图像分别进行编码,通过解耦表示学习解耦出两个图像的风格编码和内容编码,以达到图像变换的目的;风格编码器通过解耦表示学习中的5个卷积层和批量归一化BN产生,最终解耦出8维的风格编码;内容编码器通过解耦表示学习中的4个卷积层和批量归一化BN产生,最终解耦出128维的初始内容编码;由于图像的风格编码和内容编码在浅层上具有相同的特征,因此,在解耦表示学习中,风格编码和内容编码前两层的卷积和批量归一化BN是共享的,目标在于提取浅层特征。

4.根据权利要求1所述的一种半监督多模态多类别的图像翻译方法,其特征在于:在步骤S3中,将编码器通过解耦表示学习产生的两组风格编码送入到对抗自编码器AAE中,最终输出为0和1的二分类结果;其中,对抗自编码器AAE由(256,64,16,1)四个多层感知器MLP组成,对抗自编码器AAE设计的目的是使得风格编码满足给定的数据分布,因此,对抗损失能够通过如下公式求解:式中, 为图像的风格编码, 为给定的图像数据分布, 为图像对应的数据分布。

5.根据权利要求1所述的一种半监督多模态多类别的图像翻译方法,其特征在于:在步骤S3中,将编码器通过解耦表示学习产生的两组内容编码送入到内容对抗学习网络,进行跨域和类别的分类,进而产生所需要的编码,以达到输入图像的多类别变换;所述内容对抗学习网络包括两个子网络:域标签分类器和类标签分类器,所述域标签分类器由一系列多层感知器MLP(256、128、64、64、2)组成,所述类标签分类器由一个多层感知器MLP(k)和一个softmax层组成,k为类别数目;为了判定域标签分类器接收的内容编码来自于哪个域,以及判定类标签分类器接收的图像是哪一个类别,因此,定义了域标签分类器损失LDomain和类标签分类器损失Llabel,分别通过如下公式求解:式中, 为图像1的内容编码, 为图像1对应的数据分布, 为图像2的内容编码,为图像2对应的数据分布,FCE为交叉熵损失函数,L1为图像1的标签,L2为图像2的标签,x1为输入图像1,x2为输入图像2;

为了保证在训练的过程中良好的域平滑效果,定义了少量标签数据损失 和无标签数据损失 分别通过如下公式求解:

式中,L1为图像1的标签, 为图像1的内容编码,x1→2为图像1到图像2的转换,为图像1到图像2的内容转换编码,FCE为交叉熵损失,L2为图像2的标签, 为图像2的内容编码,x2→1为图像2到图像1的转换, 为图像2到图像1的内容转换编码,x1为输入图像1,x2为输入图像2。

6.根据权利要求1所述的一种半监督多模态多类别的图像翻译方法,其特征在于:在步骤S4中,通过解码器将图像1的内容编码和图像1的风格编码生成原始图像,将图像1的内容编码和图像2的风格编码或者图像1的风格编码和图像2的内容编码生成跨域转换的图像;

其中,解码器的结构是将一个4*4反卷积层与三个连续的3*3反卷积层重新组合,在每个反卷积层之后,还添加了一个批量归一化BN层,通过从输入编码中解码,构建输入图像的重构损失 少量标签的重构损失Lsemi-su和无标签的重构损失Lun,最终实现对图像多模态多类别的转换,分别通过如下公式求解:式中, 为图像i的内容编码, 为图像i的风格编码,xi为某个图像, 为对内容编码和风格编码二元组(*1,*2)解码后的输出图像,||*||2为L2正则化范数;

式中, 为输入图像1的对抗损失, 为输入图像2的对抗损失,LDomain为域标签分类器损失,LLabel为类标签分类器损失, 为少量标签数据损失, 为输入图像1的重构损失, 为输入图像2的重构损失;

式中, 为输入图像1的对抗损失, 为输入图像2的对抗损失,LDomain为域标签分类器损失,Llabel为类标签分类器损失, 为无标签数据损失, 为输入图像1的重构损失,为输入图像2的重构损失。