买专利、卖专利、专利购买、专利交易、专利出售、高企申报-用于输出视频中的音乐片段的方法和装置

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

用于输出视频中的音乐片段的方法和装置

￥25200

专利号： 2018108786237

申请人：百度在线网络技术(北京)有限公司

专利类型：发明专利

专利状态：已下证

更新日期：2025-12-08

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种用于输出视频中的音乐片段的方法，包括：从目标视频中获取视频片段；

将所述视频片段输入至预先训练的音乐片段检测模型，得到所述视频片段包括的音乐片段的定位信息，其中，所述音乐片段检测模型用于表征视频片段与视频片段包括的音乐片段的定位信息的对应关系；

根据所述定位信息输出所述视频片段包括的音乐片段。

2.根据权利要求1所述的方法，其中，所述从目标视频中获取视频片段，包括：按照预设时间间隔，从所述目标视频的音频中获取音频片段；

对获取的音频片段进行短时傅里叶变换生成频谱图；

将生成的频谱图离散化到预设数目个区间，得到频谱图序列；

将得到的频谱图序列输入预先训练的概率生成模型，得到获取的音频片段为音乐音频片段的概率，所述概率生成模型用于表征频谱图序列与频谱图序列对应的音频片段为音乐音频片段的概率的对应关系；

根据获取的音频片段为音乐音频片段的概率以及预先设置的概率阈值，从目标视频中获取视频片段。

3.根据权利要求2所述的方法，其中，所述根据音频片段为音乐音频片段的概率以及预先设置的概率阈值，从目标视频中获取视频片段，包括：根据音频片段为音乐音频片段的概率以及预先设置的至少两个概率阈值，通过分水岭算法，从目标视频中获取视频片段。

4.根据权利要求1所述的方法，其中，所述从目标视频中获取视频片段，包括：确定所述目标视频中的静音点；

从所述目标视频中获取确定出的相邻的静音点之间的视频片段。

5.根据权利要求1所述的方法，其中，所述从目标视频中获取视频片段，包括：识别所述目标视频中包含预设字符的视频帧；

将识别出的视频帧确定为切分帧；

根据确定出的切分帧从所述目标视频中获取视频片段。

6.根据权利要求1-5中任一项所述的方法，其中，所述音乐片段检测模型包括特征提取模型、分类模型、完整度确定模型和回归定位模型，其中，所述特征提取模型用于表征视频片段与视频片段的特征的对应关系，所述分类模型用于表征视频片段的特征与视频片段的标签的对应关系，所述标签用于指示视频片段是否为音乐片段，所述完整度确定模型用于表征视频片段的特征与视频片段的完整度对应关系，所述回归定位模型用于表征视频片段的特征与视频片段包括音乐片段的定位信息对应关系。

7.根据权利要求6所述的方法，其中，所述特征提取模型用于：将输入的视频片段扩展预设帧数；

将扩展后的视频片段划分为开始部分、中间部分和结束部分；

通过卷积神经网络提取所述开始部分、所述中间部分和所述结束部分包括的视频帧的特征；

组合提取出的所述开始部分、所述中间部分和所述结束部分包括的视频帧的特征得到输入的视频片段的特征。

8.一种用于输出视频中的音乐片段的装置，包括：获取单元，被配置成从目标视频中获取视频片段；

输入单元，被配置成将所述视频片段输入至预先训练的音乐片段检测模型，得到所述视频片段包括的音乐片段的定位信息，其中，所述音乐片段检测模型用于表征视频片段与视频片段包括的音乐片段的定位信息的对应关系；

输出单元，被配置成根据所述定位信息输出所述视频片段包括的音乐片段。

9.根据权利要求8所述的装置，其中，所述获取单元，包括：第一获取子单元，被配置成按照预设时间间隔，从所述目标视频的音频中获取音频片段；

变换子单元，被配置成对获取的音频进行短时傅里叶变换生成频谱图；

离散化子单元，被配置成将生成的频谱图离散化到预设数目个区间，得到频谱图序列；

输入子单元，被配置成将得到的频谱图序列输入预先训练的概率生成模型，得到获取的音频片段为音乐音频片段的概率，所述概率生成模型用于表征频谱图序列与频谱图序列对应的音频片段为音乐音频片段的概率的对应关系；

第二获取子单元，被配置成根据获取的音频片段为音乐音频片段的概率以及预先设置的概率阈值，从目标视频中获取视频片段。

10.根据权利要求9所述的装置，其中，所述第二获取子单元，进一步被配置成：根据音频片段为音乐音频片段的概率以及预先设置的至少两个概率阈值，通过分水岭算法，从目标视频中获取视频片段。

11.根据权利要求8所述的装置，其中，所述获取单元，包括：第一确定子单元，被配置成确定所述目标视频中的静音点；

第三获取子单元，被配置成从所述目标视频中获取确定出的相邻的静音点之间的视频片段。

12.根据权利要求8所述的装置，其中，所述获取单元，包括：识别子单元，被配置成识别所述目标视频中包含预设字符的视频帧；

第二确定子单元，被配置成将识别出的视频帧确定为切分帧；

第四获取子单元，被配置成根据确定出的切分帧从所述目标视频中获取视频片段。

13.根据权利要求8-12中任一项所述的装置，其中，所述音乐片段检测模型包括特征提取模型、分类模型、完整度确定模型和回归定位模型，其中，所述特征提取模型用于表征视频片段与视频片段的特征的对应关系，所述分类模型用于表征视频片段的特征与视频片段的标签的对应关系，所述标签用于指示视频片段是否为音乐片段，所述完整度确定模型用于表征视频片段的特征与视频片段的完整度对应关系，所述回归定位模型用于表征视频片段的特征与视频片段包括音乐片段的定位信息对应关系。

14.根据权利要求13所述的装置，其中，所述特征提取模型用于：将输入的视频片段扩展预设帧数；

将扩展后的视频片段划分为开始部分、中间部分和结束部分；

通过卷积神经网络提取所述开始部分、所述中间部分和所述结束部分包括的视频帧的特征；

组合提取出的所述开始部分、所述中间部分和所述结束部分包括的视频帧的特征得到输入的视频片段的特征。

15.一种电子设备，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。

16.一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如权利要求1-7中任一所述的方法。