利索能及
我要发布
收藏
专利号: 202211425118X
申请人: 百度国际科技(深圳)有限公司
专利类型:发明专利
专利状态:授权未缴费
更新日期:2025-02-06
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种漫画视频生成方法,所述方法包括:

获取至少一幅漫画图像;

根据所述至少一幅漫画图像的画面内容,生成所述至少一幅漫画图像对应的视频片段;

根据所述至少一幅漫画图像的排列位置,对所述至少一幅漫画图像对应的视频片段进行视频合成,以得到漫画视频。

2.根据权利要求1所述的方法,其中,所述漫画图像包含一帧子图像;

所述根据所述至少一幅漫画图像的画面内容,生成所述至少一幅漫画图像对应的视频片段,包括:针对所述至少一幅漫画图像中的任一所述漫画图像,对所述漫画图像的画面内容进行光学字符识别,以得到文本信息;

对所述文本信息进行语音转换,以得到音频片段;

将所述漫画图像与所述音频片段进行合成,以得到所述漫画图像对应的视频片段。

3.根据权利要求2所述的方法,其中,所述对所述漫画图像的画面内容进行光学字符识别,以得到文本信息,包括:根据所述漫画图像的画面内容,从所述漫画图像中提取包含对话内容的目标区域;

对所述目标区域进行光学字符识别,以得到文本信息。

4.根据权利要求2所述的方法,其中,所述将所述漫画图像与所述音频片段进行合成,以得到所述漫画图像对应的视频片段,包括:获取第一配置时长,其中,所述第一配置时长是响应于第一配置操作对各所述视频片段的展示时长进行配置得到的;

根据所述第一配置时长对所述音频片段的时长进行调整;

将所述漫画图像与时长调整后的所述音频片段进行合成,以得到展示时长与所述第一配置时长匹配的所述漫画图像的视频片段。

5.根据权利要求1所述的方法,其中,所述漫画图像包含多帧子图像;

所述根据所述至少一幅漫画图像的画面内容,生成所述至少一幅漫画图像对应的视频片段,包括:针对所述至少一幅漫画图像中的任一所述漫画图像,对所述漫画图像进行拆分,以得到多帧目标子图像;

根据所述多帧目标子图像的画面内容,生成所述多帧目标子图像对应的子视频片段;

确定所述多帧目标子图像在所述漫画图像中的排版方式;

根据所述排版方式,对所述多帧目标子图像对应的子视频片段进行合成,以得到所述漫画图像对应的视频片段。

6.根据权利要求5所述的方法,其中,所述对所述漫画图像进行拆分,以得到多帧目标子图像,包括:在所述漫画图像中包含与设定形状匹配的第一候选子图像的情况下,将所述第一候选子图像作为目标子图像,并从所述漫画图像中截取所述目标子图像;

在所述漫画图像中包含与所述设定形状不匹配的第二候选子图像的情况下,根据各所述第二候选子图像在所述漫画图像中的排列位置,从所述漫画图像中截取与所述设定形状匹配的目标子图像,其中,所述目标子图像中包含排列位置临近的多个所述第二候选子图像。

7.根据权利要求5所述的方法,其特征在于,所述根据所述多帧目标子图像的画面内容,生成所述多帧目标子图像对应的子视频片段,包括:针对所述多帧目标子图像中的任一所述目标子图像,对所述目标子图像的画面内容进行光学字符识别,以得到子文本信息;

对所述子文本信息进行语音转换,以得到子音频片段;

将所述目标子图像与所述子音频片段进行合成,以得到所述目标子图像对应的子视频片段。

8.根据权利要求7所述的方法,其中,所述将所述目标子图像与所述子音频片段进行合成,以得到所述目标子图像对应的子视频片段,包括:获取第二配置时长,其中,所述第二配置时长是响应于第二配置操作对各所述子视频片段的展示时长进行配置得到的;

根据所述第二配置时长对所述子音频片段的时长进行调整;

将所述目标子图像与时长调整后的所述子音频片段进行合成,以得到展示时长与所述第二配置时长匹配的所述目标子图像的子视频片段。

9.根据权利要求1‑8中任一项所述的方法,其中,所述方法还包括:获取所述至少一幅漫画图像中的文本信息;

对所述至少一幅漫画图像中的文本信息进行分类,以得到目标类别,其中,所述目标类别用于指示所述至少一幅漫画图像所属的题材和/或风格;

根据所述目标类别,从多个候选背景音频中确定与所述目标类别匹配的目标背景音频;

将所述目标背景音频与所述漫画视频进行合成,以得到合成后的所述漫画视频。

10.根据权利要求1‑8中任一项所述的方法,其中,所述方法还包括:识别所述至少一幅漫画图像是否为灰度图像;

在所述至少一幅漫画图像为灰度图像的情况下,基于目标配色模型对所述漫画视频中的各视频帧进行配色,以得到配色后的所述漫画视频。

11.根据权利要求10所述的方法,其中,所述目标配色模型通过以下步骤训练得到:获取彩色漫画,并获取样本漫画,其中,所述样本漫画是对所述彩色漫画进行灰度处理得到的;

采用初始配色模型对所述样本漫画进行配色,以得到配色漫画;

根据所述配色漫画和所述彩色漫画之间的色彩差异,对所述初始配色模型进行训练,以得到所述目标配色模型。

12.一种漫画视频生成装置,所述装置包括:

第一获取模块,用于获取至少一幅漫画图像;

生成模块,用于根据所述至少一幅漫画图像的画面内容,生成所述至少一幅漫画图像对应的视频片段;

合成模块,用于根据所述至少一幅漫画图像的排列位置,对所述至少一幅漫画图像对应的视频片段进行视频合成,以得到漫画视频。

13.根据权利要求12所述的装置,其中,所述漫画图像包含一帧子图像;所述生成模块,用于:针对所述至少一幅漫画图像中的任一所述漫画图像,对所述漫画图像的画面内容进行光学字符识别,以得到文本信息;

对所述文本信息进行语音转换,以得到音频片段;

将所述漫画图像与所述音频片段进行合成,以得到所述漫画图像对应的视频片段。

14.根据权利要求13所述的装置,其中,所述生成模块,用于:根据所述漫画图像的画面内容,从所述漫画图像中提取包含对话内容的目标区域;

对所述目标区域进行光学字符识别,以得到文本信息。

15.根据权利要求13所述的装置,其中,所述生成模块,用于:获取第一配置时长,其中,所述第一配置时长是响应于第一配置操作对各所述视频片段的展示时长进行配置得到的;

根据所述第一配置时长对所述音频片段的时长进行调整;

将所述漫画图像与时长调整后的所述音频片段进行合成,以得到展示时长与所述第一配置时长匹配的所述漫画图像的视频片段。

16.根据权利要求12所述的装置,其中,所述漫画图像包含多帧子图像;所述生成模块,用于:针对所述至少一幅漫画图像中的任一所述漫画图像,对所述漫画图像进行拆分,以得到多帧目标子图像;

根据所述多帧目标子图像的画面内容,生成所述多帧目标子图像对应的子视频片段;

确定所述多帧目标子图像在所述漫画图像中的排版方式;

根据所述排版方式,对所述多帧目标子图像对应的子视频片段进行合成,以得到所述漫画图像对应的视频片段。

17.根据权利要求16所述的装置,其中,所述生成模块,用于:在所述漫画图像中包含与设定形状匹配的第一候选子图像的情况下,将所述第一候选子图像作为目标子图像,并从所述漫画图像中截取所述目标子图像;

在所述漫画图像中包含与所述设定形状不匹配的第二候选子图像的情况下,根据各所述第二候选子图像在所述漫画图像中的排列位置,从所述漫画图像中截取与所述设定形状匹配的目标子图像,其中,所述目标子图像中包含排列位置临近的多个所述第二候选子图像。

18.根据权利要求16所述的装置,其特征在于,所述生成模块,用于:针对所述多帧目标子图像中的任一所述目标子图像,对所述目标子图像的画面内容进行光学字符识别,以得到子文本信息;

对所述子文本信息进行语音转换,以得到子音频片段;

将所述目标子图像与所述子音频片段进行合成,以得到所述目标子图像对应的子视频片段。

19.根据权利要求18所述的装置,其中,所述生成模块,用于:获取第二配置时长,其中,所述第二配置时长是响应于第二配置操作对各所述子视频片段的展示时长进行配置得到的;

根据所述第二配置时长对所述子音频片段的时长进行调整;

将所述目标子图像与时长调整后的所述子音频片段进行合成,以得到展示时长与所述第二配置时长匹配的所述目标子图像的子视频片段。

20.根据权利要求12‑19中任一项所述的装置,其中,所述装置还包括:第二获取模块,用于获取所述至少一幅漫画图像中的文本信息;

分类模块,用于对所述至少一幅漫画图像中的文本信息进行分类,以得到目标类别,其中,所述目标类别用于指示所述至少一幅漫画图像所属的题材和/或风格;

确定模块,用于根据所述目标类别,从多个候选背景音频中确定与所述目标类别匹配的目标背景音频;

处理模块,用于将所述目标背景音频与所述漫画视频进行合成,以得到合成后的所述漫画视频。

21.根据权利要求12‑19中任一项所述的装置,其中,所述装置还包括:识别模块,用于识别所述至少一幅漫画图像是否为灰度图像;

第一配色模块,用于在所述至少一幅漫画图像为灰度图像的情况下,基于目标配色模型对所述漫画视频中的各视频帧进行配色,以得到配色后的所述漫画视频。

22.根据权利要求21所述的装置,其中,所述目标配色模型通过以下模块训练得到:第三获取模块,用于获取彩色漫画,并获取样本漫画,其中,所述样本漫画是对所述彩色漫画进行灰度处理得到的;

第二配色模块,用于采用初始配色模型对所述样本漫画进行配色,以得到配色漫画;

训练模块,用于根据所述配色漫画和所述彩色漫画之间的色彩差异,对所述初始配色模型进行训练,以得到所述目标配色模型。

23.一种电子设备,包括:

至少一个处理器;以及

与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1‑11中任一项所述的漫画视频生成方法。

24.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1‑11中任一项所述的漫画视频生成方法。

25.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1‑11中任一项所述漫画视频生成方法的步骤。