利索能及
我要发布
收藏
专利号: 2014102448309
申请人: 百度在线网络技术(北京)有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-08
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种文本检索字幕库的生成方法,其特征在于,包括:根据预设的语种类型,获取与视频对应的至少两个语种类型的语种检索字幕,其中,所述语种检索字幕存储于至少一个字幕文件中;

将视频库中与各视频对应的语种检索字幕的合集,作为文本检索字幕库;

其中,所述根据预设的语种类型,获取与视频对应的至少两个语种类型的语种检索字幕包括:根据预设的语种类型,获取与视频对应的至少一个语种类型的视频字幕;

如果获取的所述视频字幕的语种类型数目等于预设的语种类型数目,将获取的所述视频字幕作为所述视频的语种检索字幕;

如果获取的所述视频字幕的语种类型数目小于预设的语种类型数目,使用获取的所述视频字幕,生成与未被获取的预设语种类型对应的翻译字幕;

将生成的所述翻译字幕和获取的所述视频字幕的合集作为所述视频的语种检索字幕;

所述如果获取的所述视频字幕的语种类型数目小于预设的语种类型数目,使用获取的所述视频字幕,生成未被获取的预设语种类型的翻译字幕包括:计算获取的所述视频字幕的语种类型与未被获取的预设语种类型的易翻译权值;

使用自动翻译工具,对与未被获取的预设语种类型易翻译权值最高的视频字幕进行翻译,生成与未被获取的预设语种类型对应的翻译字幕;

所述根据预设的语种类型,获取与视频对应的至少一个语种类型的视频字幕包括:根据预设的语种类型,获取视频自带的独立字幕文件;

如果未通过获取视频自带的独立字幕文件的方式获取与视频对应的至少一个语种类型的视频字幕,则根据预设的语种类型,使用光学字符识别技术,识别所述视频的图像中展示的字幕文字内容;

如果未通过所述光学字符识别技术获取与视频对应的至少一个语种类型的视频字幕,则根据预设的语种类型,在互联网中搜索与所述视频的标签信息相匹配的网络字幕文件,作为所述视频字幕。

2.一种视频的检索方法,其特征在于,包括:

获取文本检索字幕库中与输入检索词对应的至少一个匹配字幕语句集,其中,所述匹配字幕语句集中包括至少一个字幕语句;

根据所述匹配字幕语句集获取对应的视频信息,作为所述输入检索词的检索结果;

其中,所述文本检索字幕库包括至少一个字幕文件,所述字幕文件用于存储与视频对应的至少两个语种类型的语种检索字幕;

所述根据所述匹配字幕语句集获取对应的视频信息包括:将所述匹配字幕语句集,作为所述视频信息,提供给用户;以及将与所述匹配字幕语句集对应的视频图像帧集合,作为所述视频信息,提供给用户,其中,所述视频图像帧集合中包括至少一个视频图像帧;

其中,在最初状态下只向用户提供匹配字幕语句集,当用户选择一个匹配字幕语句后,将对应的视频图像帧提供给用户。

3.根据权利要求2所述的方法,其特征在于,所述获取文本检索字幕库中与输入检索词对应的至少一个匹配字幕语句集还包括:在所述文本检索字幕库的字幕文件中获取与所述输入检索词的语种类型相匹配的至少一个字幕语句,并计算所述至少一个字幕语句与所述输入检索词的相似度权重值;

在相似度权重值大于预定阈值的匹配字幕语句所在的字幕文件中,获取包括所述匹配字幕语句的匹配字幕语句集。

4.根据权利要求2所述的方法,其特征在于,所述获取文本检索字幕库中与输入检索词对应的至少一个匹配字幕语句集包括:在所述文本检索字幕库的字幕文件中获取与所述输入检索词的语种类型相匹配的至少一个字幕语句,并计算所述至少一个字幕语句与所述输入检索词的第一相似权值;

在所述文本检索字幕库的字幕文件中获取与所述相匹配的至少一个字幕语句不同语种类型的至少一个验证字幕语句;

使用自动翻译工具,将所述输入检索词翻译为与所述验证字幕语句的语种类型相同的翻译检索词;

计算所述至少一个验证字幕语句与所述翻译检索词的第二相似权值;

根据所述第一相似权值与所述第二相似权值,计算所述相匹配的至少一个字幕语句的相似度权重值;

在相似度权重值大于预定阈值的匹配字幕语句所在的字幕文件中,获取包括所述匹配字幕语句的匹配字幕语句集。

5.根据权利要求3或4所述的方法,其特征在于,所述在相似度权重值大于预定阈值的匹配字幕语句所在的字幕文件中,获取包括所述匹配字幕语句的匹配字幕语句集包括:在所述匹配字幕语句所在的字幕文件中,以所述匹配字幕语句为中心,获取所述匹配字幕语句前后预定个数的字幕语句,与所述匹配字幕语句一起作为所述匹配字幕语句集;

或者

在所述匹配字幕语句所在的字幕文件中,以所述匹配字幕语句为起点,获取所述匹配字幕语句后预定个数的字幕语句,与所述匹配字幕语句一起作为所述匹配字幕语句集。

6.根据权利要求2所述的方法,其特征在于,还包括:获取辅助字幕搜索信息;

所述获取文本检索字幕库中与输入检索词对应的至少一个匹配字幕语句集具体包括:在所述文本检索字幕库中获取与所述辅助字幕搜索信息对应的至少一个视频字幕文件;

在所述至少一个视频字幕文件中获取与所述输入检索词对应的至少一个匹配字幕语句集。

7.一种文本检索字幕库的生成装置,其特征在于,包括:语种检索字幕获取单元,用于根据预设的语种类型,获取与视频对应的至少两个语种类型的语种检索字幕,其中,所述语种检索字幕存储于至少一个视频字幕文件中;

文本检索字幕库生成单元,用于将视频库中与各视频对应的语种检索字幕的合集,作为文本检索字幕库;

所述语种检索字幕获取单元具体包括:

视频字幕获取子单元,用于根据预设的语种类型,获取与视频对应的至少一个语种类型的视频字幕;

第一语种检索字幕生成子单元,用于如果获取的所述视频字幕的语种类型数目等于预设的语种类型数目,将获取的所述视频字幕作为所述视频的语种检索字幕;

翻译字幕生成子单元,用于如果获取的所述视频字幕的语种类型数目小于预设的语种类型数目,使用获取的所述视频字幕,生成未被获取的预设语种类型的翻译字幕,触发第二语种检索字幕生成子单元;

第二语种检索字幕生成子单元,用于将所述翻译字幕生成子单元生成的所述翻译字幕和所述视频字幕获取子单元获取的所述视频字幕的合集作为所述视频的语种检索字幕;

所述翻译字幕生成子单元具体用于:

计算获取的所述视频字幕的语种类型与未被获取的预设语种类型的易翻译权值;

使用自动翻译工具,对与未被获取的预设语种类型易翻译权值最高的视频字幕进行翻译,生成与未被获取的预设语种类型对应的翻译字幕;

其中,所述视频字幕获取子单元具体用于:

根据预设的语种类型,获取视频自带的独立字幕文件;

如果未通过获取视频自带的独立字幕文件的方式获取与视频对应的至少一个语种类型的视频字幕,则根据预设的语种类型,使用光学字符识别技术,识别所述视频的图像中展示的字幕文字内容;

如果未通过所述光学字符识别技术获取与视频对应的至少一个语种类型的视频字幕,则根据预设的语种类型,在互联网中搜索与所述视频的标签信息相匹配的网络字幕文件,作为所述视频字幕。

8.一种视频的检索装置,其特征在于,包括:

匹配字幕语句集获取单元,用于获取文本检索字幕库中与输入检索词对应的至少一个匹配字幕语句集,其中,所述匹配字幕语句集中包括至少一个字幕语句;

检索结果生成单元,用于根据所述匹配字幕语句集获取对应的视频信息,作为所述输入检索词的检索结果;

其中,所述文本检索字幕库包括至少一个字幕文件,所述字幕文件用于存储与视频对应的至少两个语种类型的语种检索字幕;

所述检索结果生成单元具体用于:

将所述匹配字幕语句集,作为所述视频信息,提供给用户;以及将与所述匹配字幕语句集对应的视频图像帧集合,作为所述视频信息,提供给用户,其中,所述视频图像帧集合中包括至少一个视频图像帧;

其中,在最初状态下只向用户提供匹配字幕语句集,当用户选择一个匹配字幕语句后,将对应的视频图像帧提供给用户。

9.根据权利要求8所述的装置,其特征在于,所述匹配字幕语句集获取单元具体用于:在所述文本检索字幕库的字幕文件中获取与所述输入检索词的语种类型相匹配的至少一个字幕语句,并计算所述至少一个字幕语句与所述输入检索词的第一相似权值;

在所述文本检索字幕库的字幕文件中获取与所述相匹配的至少一个字幕语句不同语种类型的至少一个验证字幕语句;

使用自动翻译工具,将所述输入检索词翻译为与所述验证字幕语句的语种类型相同的翻译检索词;

计算所述至少一个验证字幕语句与所述翻译检索词的第二相似权值;

根据所述第一相似权值与所述第二相似权值,计算所述相匹配的至少一个字幕语句的相似度权重值;

在相似度权重值大于预定阈值的匹配字幕语句所在的字幕文件中,获取包括所述匹配字幕语句的匹配字幕语句集。

10.根据权利要求8所述的装置,其特征在于,还包括:辅助字幕搜索信息获取单元,用于获取辅助字幕搜索信息;

所述匹配字幕语句集获取单元具体用于:

在所述文本检索字幕库中获取与所述辅助字幕搜索信息对应的至少一个视频字幕文件;

在所述至少一个视频字幕文件中获取与所述输入检索词对应的至少一个匹配字幕语句集。