利索能及
我要发布
收藏
专利号: 2021113201244
申请人: 北京百度网讯科技有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2025-08-05
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种多媒体数据处理方法,包括:根据参考视频数据中的参考音频数据,获得合成音频数据;

将所述合成音频数据与所述参考音频数据进行映射,获得映射结果;

根据所述映射结果,以及所述参考音频数据和所述参考视频数据的视频帧之间的映射关系,生成合成视频数据,所述合成视频数据中的音频数据为所述合成音频数据。

2.根据权利要求1所述的方法,其中,所述将所述合成音频数据与所述参考音频数据进行映射,获得映射结果,包括:针对所述合成音频数据中的每个合成音频数据采样点,计算所述合成音频数据采样点与所述参考音频数据中的各个参考音频数据采样点之间的波形距离;

针对所述每个合成音频数据采样点,将波形距离最近的参考音频数据采样点,作为与所述合成音频数据采样点具有映射关系的参考音频数据采样点;

将所有所述合成音频数据采样点和参考音频数据采样点之间的映射关系,作为所述映射结果。

3.根据权利要求1或2所述的方法,其中,所述根据所述映射结果,以及所述参考音频数据和所述参考视频数据的视频帧之间的映射关系,生成合成视频数据,包括:根据所述参考视频数据和所述参考音频数据,将所述参考音频数据划分成多个语音单元,每个语音单元对应一帧视频帧;

根据所述语音单元的每个参考音频数据采样点的时刻,确定每个语音单元所对应的参考视频数据中的视频帧;

根据所有所述语音单元对应的视频帧和所述映射结果,生成所述合成视频数据。

4.根据权利要求3所述的方法,其中,所述根据所有所述语音单元对应的视频帧和所述映射结果,生成所述合成视频数据,包括:根据各个语音单元对应的视频帧,确定每个参考音频数据采样点对应的视频帧;

根据所述映射结果和每个参考音频数据采样点对应的视频帧,确定每个合成音频数据采样点对应的视频帧;

将所有所述合成音频数据采样点对应的视频帧,按照所述合成音频数据采样点的顺序进行排列,生成所述合成视频数据。

5.根据权利要求3所述的方法,其中,所述根据所述参考视频数据和所述参考音频数据,将所述参考音频数据进行划分成多个语音单元,包括:根据所述参考音频数据的时长和所述参考视频数据的帧率,得到每一帧视频帧对应的参考音频数据的时长;

按照每一帧视频帧对应的参考音频数据的时长,对所述参考音频数据进行划分,得到所述语音单元。

6.根据权利要求1‑5中任意一项所述的方法,其中,所述合成音频数据为文本转换对话语音数据。

7.根据权利要求1‑6任意一项所述的方法,其中,所述根据参考视频数据中的参考音频数据,获得合成音频数据,包括:根据所述参考音频数据,确定文字内容;

根据文字内容,获得所述合成音频数据。

8.一种模型生成方法,包括:将训练视频帧和合成音频数据输入待训练的语音驱动人脸模型,获得语音驱动视频帧;所述合成音频数据为权利要求1‑7中任意一项所述的合成音频数据;

根据语音驱动视频帧和合成视频数据,对所述待训练的语音驱动人脸模型进行训练,获得语音驱动人脸模型,所述合成视频数据为权利要求1‑7中任意一项所述的合成视频数据。

9.一种多媒体数据处理装置,包括:合成音频数据获取模块,用于根据参考视频数据中的参考音频数据,获得合成音频数据;

映射模块,用于将所述合成音频数据与所述参考音频数据进行映射,获得映射结果;

合成视频数据生成模块,用于根据所述映射结果,以及所述参考音频数据和所述参考视频数据的视频帧之间的映射关系,生成合成视频数据,所述合成视频数据中的音频数据为所述合成音频数据。

10.根据权利要求9所述的装置,其中,所述映射模块可包括:波形距离单元,用于针对所述合成音频数据中的每个合成音频数据采样点,计算所述合成音频数据采样点与所述参考音频数据中的各个参考音频数据采样点之间的波形距离;

采样点对应单元,用于针对所述每个合成音频数据采样点,将波形距离最近的参考音频数据采样点,作为与所述合成音频数据采样点具有映射关系的参考音频数据采样点;

映射结果生成单元,用于将所有所述合成音频数据采样点和参考音频数据采样点之间的映射关系,作为所述映射结果。

11.根据权利要求9或10所述的装置,其中,所述合成视频数据生成模块包括:划分单元,用于根据所述参考视频数据和所述参考音频数据,将所述参考音频数据划分成多个语音单元,每个语音单元对应一帧视频帧;

视频帧对应单元,用于根据所述语音单元的每个参考音频数据采样点的时刻,确定每个语音单元所对应的参考视频数据中的视频帧;

映射结果处理单元,用于根据所有所述语音单元对应的视频帧和所述映射结果,生成所述合成视频数据。

12.根据权利要求11所述的装置,其中,所述映射结果处理单元还用于:根据各个语音单元对应的视频帧,确定每个参考音频数据采样点对应的视频帧;

根据所述映射结果和每个参考音频数据采样点对应的视频帧,确定每个合成音频数据采样点对应的视频帧;

将所有所述合成音频数据采样点对应的视频帧,按照所述合成音频数据采样点的顺序进行排列,生成所述合成视频数据。

13.根据权利要求11所述的装置,其中,所述划分单元还用于:根据所述参考音频数据的时长和所述参考视频数据的帧率,得到每一帧视频帧对应的参考音频数据的时长;

按照每一帧视频帧对应的参考音频数据的时长,对所述参考音频数据进行划分,得到所述语音单元。

14.根据权利要求9‑13中任意一项所述的装置,其中,所述合成音频数据为文本转换对话语音数据。

15.根据权利要求9‑14任意一项所述的装置,其中,所述合成音频数据生成模块包括:文字内容确定模块,用于根据所述参考音频数据,确定文字内容;

文字内容处理模块,用于根据文字内容,获得所述合成音频数据。

16.一种模型生成装置,包括:输入模块,用于将训练视频帧和合成音频数据输入待训练的语音驱动人脸模型,获得语音驱动视频帧;所述合成音频数据为权利要求9‑15中任意一项所述的合成音频数据;

训练模块,用于根据语音驱动视频帧和合成视频数据,对所述待训练的语音驱动人脸模型进行训练,获得语音驱动人脸模型,所述合成视频数据为权利要求9‑15中任意一项所述的合成视频数据。

17.一种电子设备,包括:

至少一个处理器;以及

与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1‑8中任一项所述的方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1‑8中任一项所述的方法。

19.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。