利索能及
我要发布
收藏
专利号: 2014107795442
申请人: 北京国双科技有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2025-11-19
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种语音端点检测方法,其特征在于,包括:

获取目标环境下的待测音频;

利用预先生成的语音训练模型对所述待测音频中的音频片段进行标记,将所述待测音频中的语音片段标记为第一预设标识,其中,所述语音训练模型为对所述目标环境的语音数据进行训练得到的模型;以及从标记的待测音频中查找具有所述第一预设标识的整段音频,其中,所述整段音频为一整段标记有所述第一预设标识的语音;

将所述具有所述第一预设标识的整段音频的作为一段语音,所述具有所述第一预设标识的整段音频的起始点和结束点作为所述一段语音的端点。

2.根据权利要求1所述的语音端点检测方法,其特征在于,在获取目标环境下的待测音频之前,所述语音端点检测方法还包括:采集所述目标环境的语音数据,将所述语音数据作为语音训练集数据;

以预设单位时间对所述语音数据进行划分,得到多个音频段;

依次判断所述多个音频段中是否包含有语音;

将包含有语音的音频段标记为所述第一预设标记,并将不包含有语音的音频段标记为第二预设标记;以及从标记有所述第一预设标记和所述第二预设标记的音频段中提取样本,利用提取的样本训练得到所述语音训练模型。

3.根据权利要求2所述的语音端点检测方法,其特征在于,从标记有所述第一预设标记和所述第二预设标记的音频段中提取样本,利用提取的样本训练得到所述语音训练模型包括:从标记有所述第一预设标记的音频段中提取多个预设时间长度的音频段,作为正样本;

从标记有所述第二预设标记的音频段中提取多个所述预设时间长度的音频段,作为负样本;

使用支持向量机对所述正样本和所述负样本进行训练,得到所述语音训练模型。

4.根据权利要求3所述的语音端点检测方法,其特征在于,使用支持向量机对所述正样本和所述负样本进行训练,得到所述语音训练模型包括:使用所述支持向量机并添加高斯核函数和松弛因子对所述正样本和所述负样本进行训练,得到所述语音训练模型。

5.根据权利要求2所述的语音端点检测方法,其特征在于,利用预先生成的语音训练模型对所述待测音频中的音频片段进行标记包括:按照所述预设单位时间对所述待测音频进行划分,得到多个待测音频段;

利用所述语音训练模型对所述多个待测音频段进行标记,将包含有语音的待测音频段标记为所述第一预设标识,将不包含有语音的待测音频段标记为所述第二预设标识。

6.一种语音端点检测装置,其特征在于,包括:

获取单元,用于获取目标环境下的待测音频;

第一标记单元,用于利用预先生成的语音训练模型对所述待测音频中的音频片段进行标记,将所述待测音频中的语音片段标记为第一预设标识,其中,所述语音训练模型为对所述目标环境的语音数据进行训练得到的模型;以及查找单元,用于从标记的待测音频中查找具有所述第一预设标识的整段音频,其中,所述整段音频为一整段标记有所述第一预设标识的语音;

确定单元,用于将所述具有所述第一预设标识的整段音频的作为一段语音,所述具有所述第一预设标识的整段音频的起始点和结束点作为所述一段语音的端点。

7.根据权利要求6所述的语音端点检测装置,其特征在于,所述语音端点检测装置还包括:采集单元,用于在获取目标环境下的待测音频之前,采集所述目标环境的语音数据,将所述语音数据作为语音训练集数据;

划分单元,用于以预设单位时间对所述语音数据进行划分,得到多个音频段;

判断单元,用于依次判断所述多个音频段中是否包含有语音;

第二标记单元,用于将包含有语音的音频段标记为所述第一预设标记,并将不包含有语音的音频段标记为第二预设标记;以及训练单元,用于从标记有所述第一预设标记和所述第二预设标记的音频段中提取样本,利用提取的样本训练得到所述语音训练模型。

8.根据权利要求7所述的语音端点检测装置,其特征在于,所述训练单元包括:第一提取模块,用于从标记有所述第一预设标记的音频段中提取多个预设时间长度的音频段,作为正样本;

第二提取模块,用于从标记有所述第二预设标记的音频段中提取多个所述预设时间长度的音频段,作为负样本;

训练模块,用于使用支持向量机对所述正样本和所述负样本进行训练,得到所述语音训练模型。

9.根据权利要求8所述的语音端点检测装置,其特征在于,所述训练模块包括:训练子模块,用于使用所述支持向量机,添加高斯核函数和松弛因子对所述正样本和所述负样本进行训练,得到所述语音训练模型。

10.根据权利要求7所述的语音端点检测装置,其特征在于,所述第一标记单元包括:划分模块,用于按照所述预设单位时间对所述待测音频进行划分,得到多个待测音频段;

标记模块,用于利用所述语音训练模型对所述多个待测音频段进行标记,将包含有语音的待测音频段标记为所述第一预设标识,将不包含有语音的待测音频段标记为所述第二预设标识。