1.一种视频生成模型的构建方法,包括:将样本人物图像和样本语音片段输入初始模型的编码器网络,得到图像特征和语音动作关联特征,将所述图像特征和所述语音动作关联特征输入所述初始模型的解码器网络,预测所述样本语音片段驱动所述样本人物图像的人物图像序列,并将所述语音动作关联特征输入所述初始模型的音素预测网络,预测所述样本语音片段的音素信息;
根据所述样本语音片段的音素标签、所述样本语音片段关联的样本视频帧序列、所述音素信息和所述人物图像序列,对所述初始模型进行训练,得到视频生成模型。
2.根据权利要求1所述的方法,其中,所述根据所述样本语音片段的音素标签、所述样本语音片段关联的样本视频帧序列、所述音素信息和所述人物图像序列,对所述初始模型进行训练,包括:
将所述样本语音片段的音素标签作为所述音素信息的监督数据,对所述初始模型的编码器网络和音素预测网络进行训练;
将所述样本语音片段关联的样本视频帧序列作为所述人物图像序列的监督数据,对所述初始模型的编码器网络和解码器网络进行训练。
3.根据权利要求1所述的方法,还包括:将所述样本语音数据的频率转换为预设频率;
根据所述样本语音数据关联的样本视频的视频帧数,将转换后的样本语音数据划分为至少一个样本语音片段;
对所述至少一个样本语音片段进行音素标注,得到所述少一个样本语音片段的音素标签。
4.根据权利要求1所述的方法,还包括:对样本语音片段关联的样本视频帧序列进行人物区域定位,截取所述样本视频帧序列中视频帧的人物定位区域;
相应的,根据所述样本语音片段的音素标签、所述样本语音片段关联的样本视频帧序列、所述音素信息和所述人物图像序列,对所述初始模型进行训练,包括:根据所述样本语音片段的音素标签、所述样本视频帧序列中视频帧的人物定位区域、所述音素信息和所述人物图像序列,对所述初始模型进行训练。
5.根据权利要求1所述的方法,其中,所述初始模型还包括:判别器网络,所述方法还包括:
将所述人物图像序列和所述样本视频帧序列输入所述判别器网络,得到判别结果;
根据实际判别标签和所述判别结果,对所述初始模型进行训练。
6.根据权利要求1所述的方法,其中,所述将样本人物图像和样本语音片段输入初始模型的编码器网络,得到图像特征和语音动作关联特征,包括:将样本人物图像输入初始模型的图像编码器网络,得到所述样本人物图像的图像特征;
将样本语音片段输入初始模型的语音编码器网络,得到所述样本语音片段的语音动作关联特征。
7.一种视频生成方法,使用权利要求1‑6中任一项所述的方法构建的视频生成模型实现,所述方法包括:
将目标人物图像和目标语音片段输入所述视频生成模型中,得到所述目标语音片段驱动所述目标人物图像的人物图像序列;
根据所述人物图像序列,生成目标人物视频。
8.一种视频生成模型的构建装置,包括:数据输入模块,用于将样本人物图像和样本语音片段输入初始模型的编码器网络,得到图像特征和语音动作关联特征,将所述图像特征和所述语音动作关联特征输入所述初始模型的解码器网络,预测所述样本语音片段驱动所述样本人物图像的人物图像序列,并将所述语音动作关联特征输入所述初始模型的音素预测网络,预测所述样本语音片段的音素信息;
模型训练模块,用于根据所述样本语音片段的音素标签、所述样本语音片段关联的样本视频帧序列、所述音素信息和所述人物图像序列,对所述初始模型进行训练,得到视频生成模型。
9.根据权利要求8所述的装置,其中,模型训练模块具体用于:将所述样本语音片段的音素标签作为所述音素信息的监督数据,对所述初始模型的编码器网络和音素预测网络进行训练;
将所述样本语音片段关联的样本视频帧序列作为所述人物图像序列的监督数据,对所述初始模型的编码器网络和解码器网络进行训练。
10.根据权利要求8所述的装置,还包括:音频转换模块,用于将所述样本语音数据的频率转换为预设频率;
音频划分模块,用于根据所述样本语音数据关联的样本视频的视频帧数,将转换后的样本语音数据划分为至少一个样本语音片段;
音素标注模块,用于对所述至少一个样本语音片段进行音素标注,得到所述少一个样本语音片段的音素标签。
11.根据权利要求8所述的装置,还包括:视频处理模块,用于对样本语音片段关联的样本视频帧序列进行人物区域定位,截取所述样本视频帧序列中视频帧的人物定位区域;
相应的,所述模型训练模块具体用于:根据所述样本语音片段的音素标签、所述样本视频帧序列中视频帧的人物定位区域、所述音素信息和所述人物图像序列,对所述初始模型进行训练。
12.根据权利要求8所述的装置,其中,所述初始模型还包括:判别器网络,所述数据输入模块还用于:将所述人物图像序列和所述样本视频帧序列输入所述判别器网络,得到判别结果;
所述模型训练模块还用于:根据实际判别标签和所述判别结果,对所述初始模型进行训练。
13.根据权利要求8所述的装置,其中,所述数据输入模块具体用于:将样本人物图像输入初始模型的图像编码器网络,得到所述样本人物图像的图像特征;
将样本语音片段输入初始模型的语音编码器网络,得到所述样本语音片段的语音动作关联特征。
14.一种视频生成装置,使用权利要求1‑6中任一项所述的方法构建的视频生成模型实现,所述装置包括:
图像序列生成模块,用于将目标人物图像和目标语音片段输入所述视频生成模型中,得到所述目标语音片段驱动所述目标人物图像的人物图像序列;
视频生成模块,用于根据所述人物图像序列,生成目标人物视频。
15.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1‑6中任一项所述的视频生成模型的构建方法,或执行权利要求7所述的视频生成方法。
16.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1‑6中任一项所述的视频生成模型的构建方法,或执行权利要求7所述的视频生成方法。
17.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1‑6中任一项所述的视频生成模型的构建方法,或执行权利要求7所述的视频生成方法。