利索能及
我要发布
收藏
专利号: 2019104684506
申请人: 北京市商汤科技开发有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2025-11-18
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种用于动作迁移的视频生成神经网络的训练方法,其特征在于,所述方法包括:将源视频和目标图像输入所述视频生成神经网络进行处理,生成目标视频;

将所述目标视频和所述源视频中的源图像输入所述视频生成神经网络进行处理,生成重建视频;

基于所述源视频、所述重建视频、所述目标图像和所述目标视频中的至少两个,对所述视频生成神经网络的网络参数进行调整;

所述将源视频和目标图像输入所述视频生成神经网络进行处理,生成目标视频,包括:利用所述视频生成神经网络对所述源视频进行特征提取,得到所述源视频的运动特征;通过所述视频生成网络对所述目标图像进行特征提取,得到所述目标图像的静态外形特征;

利用所述视频生成神经网络基于所述源视频的运动特征和所述目标图像的静态外形特征,生成目标视频;

所述基于所述源视频、所述重建视频、所述目标图像和所述目标视频中的至少两个,对所述视频生成神经网络的网络参数进行调整,包括:获取用于表示所述源视频与重建视频之间误差的循环一致性损失;

通过分类网络确定所述目标视频中的图像的预测类别;通过所述分类网络确定所述目标图像的预测类别;基于所述目标视频中的图像的预测类别与所述目标图像的预测类别之间的差异,得到第一损失;

基于所述循环一致性损失和所述第一损失,调整所述视频生成神经网络的网络参数。

2.根据权利要求1所述的方法,其特征在于,所述利用所述视频生成神经网络对所述源视频进行特征提取,得到所述源视频的运动特征,包括:对所述源视频包含的多帧图像中每帧图像进行特征提取,得到所述每帧图像的特征信息;

基于所述源视频包含的多帧图像中每帧图像的特征信息与所述源视频的第一帧图像的特征信息之间的差异,得到所述每帧图像的运动特征。

3.根据权利要求2所述的方法,其特征在于,所述对所述源视频包含的多帧图像中每帧图像进行特征提取,得到所述每帧图像的特征信息,包括:利用所述视频生成神经网络中的长短期记忆网络LSTM,对所述源视频包含的多帧图像中每帧图像进行特征提取,得到所述每帧图像的特征信息。

4.根据权利要求1至3任一所述的方法,其特征在于,所述基于所述源视频的运动特征和所述目标图像的静态外形特征,生成目标视频,包括:将所述源视频包含的多帧图像中每帧图像的所述运动特征与所述目标图像的静态外形特征进行特征连接,得到所述每帧图像的连接特征;

根据所述源视频包含的多帧图像中每帧图像的连接特征,生成所述目标视频。

5.根据权利要求1~3任一所述的方法,其特征在于,所述基于所述源视频、所述重建视频、所述目标图像和所述目标视频中的至少两个,对所述视频生成神经网络的网络参数进行调整,包括:

通过判别网络中的视频判别器对所述目标视频进行判别,获得视频对抗损失;

通过所述判别网络中的图像判别器对所述目标视频包含的多帧图像中的每帧图像进行判别,获得图像对抗损失;

基于所述视频对抗损失和所述图像对抗损失,调整所述视频生成神经网络的网络参数。

6.根据权利要求1~3任一所述的方法,其特征在于,所述基于所述源视频、所述重建视频、所述目标图像和所述目标视频中的至少两个,对所述视频生成神经网络的网络参数进行调整,包括:

通过所述视频生成神经网络对所述目标视频进行特征提取,得到所述目标视频的运动特征;

根据所述目标视频的运动特征和所述源视频的运动特征之间的差异,得到第二损失;

基于所述第二损失,调整所述视频生成神经网络的网络参数。

7.一种用于动作迁移的视频生成方法,其特征在于,所述方法利用权利要求1至6任一所述的训练方法训练得到的视频生成神经网络执行,所述方法包括:获取源视频和目标图像;

对所述源视频进行特征提取,得到所述源视频的运动特征,并对所述目标图像进行特征提取,得到所述目标图像的静态外形特征;

基于所述源视频的运动特征和所述目标图像的静态外形特征,生成目标视频。

8.根据权利要求7所述的方法,其特征在于,所述对所述源视频进行特征提取,得到所述源视频的运动特征,包括:

对所述源视频包含的多帧图像中每帧图像进行特征提取,得到所述每帧图像的特征信息;

基于所述源视频包含的多帧图像中每帧图像的特征信息与所述源视频的第一帧图像的特征信息之间的差异,得到所述每帧图像的运动特征。

9.根据权利要求8所述的方法,其特征在于,所述对所述源视频包含的多帧图像中每帧图像进行特征提取,得到所述每帧图像的特征信息,包括:利用所述视频生成神经网络中的长短期记忆网络LSTM,对所述源视频包含的多帧图像中每帧图像进行特征提取,得到所述每帧图像的特征信息。

10.根据权利要求7~9任一所述的方法,其特征在于,所述基于所述源视频的运动特征和所述目标图像的静态外形特征,生成目标视频,包括:将所述源视频包含的多帧图像中每帧图像的所述运动特征与所述目标图像的静态外形特征进行特征连接,得到所述每帧图像的连接特征;

根据所述源视频包含的多帧图像中每帧图像的连接特征,生成所述目标视频。

11.一种用于动作迁移的视频生成神经网络的训练装置,其特征在于,所述装置包括:视频生成模块,用于将源视频和目标图像输入所述视频生成神经网络进行处理,生成目标视频;

视频重建模块,用于将所述目标视频和所述源视频中的源图像输入所述视频生成神经网络进行处理,生成重建视频;

网络参数调整模块,用于基于所述源视频、所述重建视频、所述目标图像和所述目标视频中的至少两个,对所述视频生成神经网络的网络参数进行调整;

所述网络参数调整模块,包括:

循环损失确定单元,用于获取用于表示所述源视频与重建视频之间误差的循环一致性损失;

所述视频生成模块,包括:

运动特征编码单元,用于对所述源视频进行特征提取,得到所述源视频的运动特征;

静态外形特征编码单元,用于对所述目标图像进行特征提取,得到所述目标图像的静态外形特征;

解码单元,用于基于所述源视频的运动特征和所述目标图像的静态外形特征,生成目标视频;

所述网络参数调整模块,包括:

第一损失确定单元,用于通过分类网络确定所述目标视频中的图像的预测类别;通过所述分类网络确定所述目标图像的预测类别;基于所述目标视频中的图像的预测类别与所述目标图像的预测类别之间的差异,得到第一损失;

所述对所述视频生成神经网络的网络参数进行调整,包括:基于所述循环一致性损失和所述第一损失,调整所述视频生成神经网络的网络参数。

12.根据权利要求11所述的装置,其特征在于,所述运动特征编码单元,用于:对所述源视频包含的多帧图像中每帧图像进行特征提取,得到所述每帧图像的特征信息;

基于所述源视频包含的多帧图像中每帧图像的特征信息与所述源视频的第一帧图像的特征信息之间的差异,得到所述每帧图像的运动特征。

13.根据权利要求12所述的装置,其特征在于,所述运动特征编码单元用于对所述源视频包含的多帧图像中每帧图像进行特征提取,得到所述每帧图像的特征信息,包括:利用所述视频生成神经网络中的长短期记忆网络LSTM,对所述源视频包含的多帧图像中每帧图像进行特征提取,得到所述每帧图像的特征信息。

14.根据权利要11至13任一所述的装置,其特征在于,所述解码单元用于:将所述源视频包含的多帧图像中每帧图像的所述运动特征与所述目标图像的静态外形特征进行特征连接,得到所述每帧图像的连接特征;

根据所述源视频包含的多帧图像中每帧图像的连接特征,生成所述目标视频。

15.根据权利要11至13任一所述的装置,其特征在于,所述网络参数调整模块,包括:对抗损失确定单元,用于通过判别网络中的视频判别器对所述目标视频进行判别,获得视频对抗损失;通过所述判别网络中的图像判别器对所述目标视频包含的多帧图像中的每帧图像进行判别,获得图像对抗损失;

第一参数调整单元,用于基于所述视频对抗损失和所述图像对抗损失,调整所述视频生成神经网络的网络参数。

16.根据权利要11至13任一所述的装置,其特征在于,所述网络参数调整模块,包括:第二损失确定单元,用于通过所述视频生成神经网络对所述目标视频进行特征提取,得到所述目标视频的运动特征;根据所述目标视频的运动特征和所述源视频的运动特征之间的差异,得到第二损失;

第三参数调整单元,用于基于所述第二损失,调整所述视频生成神经网络的网络参数。

17.一种用于动作迁移的视频生成装置,其特征在于,所述装置应用于利用权利要求1至6任一所述的训练方法训练得到的视频生成神经网络,所述装置包括:输入获取模块,用于获取源视频和目标图像;

特征提取模块,用于对所述源视频进行特征提取,得到所述源视频的运动特征,并对所述目标图像进行特征提取,得到所述目标图像的静态外形特征;

视频生成模块,用于基于所述源视频的运动特征和所述目标图像的静态外形特征,生成目标视频。

18.根据权利要求17所述的装置,其特征在于,所述特征提取模块用于对源视频进行特征提取得到所述源视频的运动特征,包括:对所述源视频包含的多帧图像中每帧图像进行特征提取,得到所述每帧图像的特征信息;

基于所述源视频包含的多帧图像中每帧图像的特征信息与所述源视频的第一帧图像的特征信息之间的差异,得到所述每帧图像的运动特征。

19.根据权利要求18所述的装置,其特征在于,所述特征提取模块,用于对所述源视频包含的多帧图像中每帧图像进行特征提取,得到所述每帧图像的特征信息,包括:利用所述视频生成神经网络中的长短期记忆网络LSTM,对所述源视频包含的多帧图像中每帧图像进行特征提取,得到所述每帧图像的特征信息。

20.根据权利要求17~19任一所述的装置,其特征在于,所述视频生成模块用于:将所述源视频包含的多帧图像中每帧图像的所述运动特征与所述目标图像的静态外形特征进行特征连接,得到所述每帧图像的连接特征;

根据所述源视频包含的多帧图像中每帧图像的连接特征,生成所述目标视频。

21.一种电子设备,其特征在于,包括:存储器、处理器,所述存储器用于存储计算机可读指令,所述处理器用于调用所述计算机指令,实现权利要求1至6任一所述的方法,或者实现权利要求7至10任一所述的方法。

22.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至6任一所述的方法,或者实现权利要求7至10任一所述的方法。