欢迎来到利索能及~ 联系电话:18621327849
利索能及
我要发布
收藏
专利号: 2019104549148
申请人: 北方民族大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-08-22
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种无监督多模态对抗自编码的图像生成方法,其特征在于,包括以下步骤:

S1、输入一组共n个同域的图像数据,它们来自于相同的数据分布,彼此共享部分公有属性,且各自拥有一些差异属性;相同的数据分布指的是数据的来源具有一致性;差异属性指的是在图像中,同一个物体在不同季节、不同光照、不同时间和不同角度下产生的变化;

S2、将输入的图像数据分别传入到可变属性编码器和固有属性编码器中,解耦出数据的固有属性编码和可变属性编码;

可变属性编码器将数据间的差异属性作为可变属性,采用卷积、全局池化、再卷积的设计模式,提取图像特征并编码,记为可变属性编码EV;其中,所述卷积共包含五个卷积层,第一个为7*7卷积层,旨在进行浅层特征的初步提取,第二至第五个是4个连续的4*4卷积层,旨在同时实现图像的下采样和特征的进一步抽象;紧随其后的是全局池化层和1*1再卷积层,都旨在提取图像的高度抽象特征;

固有属性编码器将数据间的公有属性作为固有属性,采用卷积、下采样、残差块的设计模式,提取图像特征并编码,记为固有属性编码EI;其中,所述卷积共包含五个卷积层,第一个为7*7卷积层,旨在进行浅层特征的初步提取,第二至第五个是4个连续的4*4卷积层,旨在同时实现图像的下采样和特征的进一步抽象;所述下采样的作用是降低特征维度,减少冗余信息;而最后的残差块设计为一种实例正则化密集残差块,目的是确保语义特征不变的前提下保留更加丰富的细节特征;

S3、在无监督条件下,将可变属性编码及其相应的对抗网络进行对抗学习,以求解出可变属性编码的先验分布空间;

对抗网络由(256,64,16,1)连续四个全连接层组成,将来自可变属性编码器中解耦出的可变属性编码所对应的分布作为先验分布,从正态分布中随机采样的噪声数据所对应的分布为后验分布,从先验分布和后验分布中随机采样相同维度的数据送入对抗网络中,最后输出为0或1的二分类结果;后验分布是已经知道的正态分布,通过对抗网络,当先验分布和后验分布的对抗学习达到平衡后,先验分布能够近似等价为后验分布;

S4、在无监督条件下,随机从可变属性编码的先验分布空间中采样,并联合固有属性编码通过解码器,完成单一域数据的多模态翻译,实现多属性的变换并生成对应的图像;

解码器以可变属性编码器提取的可变属性编码EV为输入,先后通过1*1*8、1*1*256和1*

1*256的3个多层感知机MLP,将可变属性编码映射为256维特征,并连同固有属性编码共同输入自适应正则化AdaIn层;设可变属性特征为xv,固有属性特征为xI,通过MLP得到的参数为δ(*)和μ(*),则AdaIn层通过下面公式完成两种属性的融合:然后,利用最近邻插值算法实现融合特征的上采样,并送入5*5卷积层完成最终解码,输出生成图像。

2.一种无监督多模态对抗自编码的图像生成框架,其特征在于:包括固有属性编码器、可变属性编码器、解码器和对抗网络,其中:

所述固有属性编码器用于在无监督多模态对抗自编码中,以同域内的一组数据为输入,将数据间的公有属性作为固有属性,提取图像特征并编码,记为固有属性编码EI;所述固有属性编码器采用卷积、下采样、残差块的设计模式,所述卷积共包含五个卷积层,第一个为7*7卷积层,旨在进行浅层特征的初步提取,第二至第五个是4个连续的4*4卷积层,旨在同时实现图像的下采样和特征的进一步抽象;所述下采样的作用是降低特征维度,减少冗余信息;而最后的残差块设计为一种实例正则化密集残差块,目的是确保语义特征不变的前提下保留更加丰富的细节特征;

所述可变属性编码器以同域内的一组数据为输入,将数据间的差异属性作为可变属性,提取图像特征并编码,记为可变属性编码EV;所述可变属性编码器采用卷积、全局池化、卷积的设计模式,卷积共包含五个卷积层,第一个为7*7卷积层,旨在进行浅层特征的初步提取,第二至第五个是4个连续的4*4卷积层,旨在同时实现图像的下采样和特征的进一步抽象;紧随其后的是全局池化层和1*1再卷积层,都旨在提取图像的高度抽象特征;

所述对抗网络由(256,64,16,1)连续四个全连接层组成,将来自可变属性编码器中解耦出的可变属性编码所对应的分布作为先验分布,从正态分布中随机采样的噪声数据所对应的分布为后验分布,从先验分布和后验分布中均随机采样相同维度的数据送入对抗网络中,最后输出为0或1的二分类结果,后验分布是已经知道的正态分布,通过对抗网络,当先验分布和后验分布的对抗学习达到平衡后,先验分布能够近似等价为后验分布;

所述解码器以可变属性编码EV为输入,先后通过1*1*8、1*1*256和1*1*256的3个多层感知机MLP,将可变属性编码映射为256维特征,并连同固有属性编码共同输入自适应正则化AdaIn层;设可变属性特征为xv,固有属性特征为xI,通过MLP得到的参数为δ(*)和μ(*),则AdaIn层通过下面公式完成两种属性的融合:然后,利用最近邻插值算法实现融合特征的上采样,并送入5*5卷积层完成最终解码,输出生成图像。