利索能及
我要发布
收藏
专利号: 201811456608X
申请人: 杭州海康威视数字技术股份有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2025-08-05
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种音频的分类方法,其特征在于,所述方法包括:

对第一音频样本数据集中的第一音频样本进行混合,得到第二音频样本数据集,所述第二音频样本数据集中包括至少一个第二多标签音频样本;

确定所述第二音频样本数据集中的每个第二多标签音频样本的标签;

通过所述第二音频样本数据集中的每个第二多标签音频样本以及所述每个第二多标签音频样本的标签,训练得到第一音频分类模型;

当需要对待分类的目标音频样本进行分类时,通过所述第一音频分类模型对所述目标音频样本进行分类。

2.如权利要求1所述的方法,其特征在于,所述对第一音频样本数据集中的第一音频样本进行混合,得到第二音频样本数据集,包括:从所述第一音频样本数据集中选择至少一组音频样本,每组音频样本包括至少两个第一音频样本;

对于每组音频样本,根据所述每组音频样本包括的至少两个第一音频样本以及混合比例,对所述至少两个第一音频样本进行混合,得到第二多标签音频样本;

将所述至少一组音频样本混合得到的至少一个第二多标签音频样本组成所述第二音频样本数据集。

3.如权利要求1或2所述的方法,其特征在于,所述确定所述第二音频样本数据集中的每个第二多标签音频样本的标签,包括:对于所述每个第二多标签音频样本,确定所述第二多标签音频样本对应的至少两个第一音频样本的标签;

将所述第二多标签音频样本对应的至少两个第一音频样本的标签组成所述第二多标签音频样本的标签。

4.如权利要求1所述的方法,其特征在于,所述通过所述第二音频样本数据集中的每个第二多标签音频样本以及所述每个第二多标签音频样本的标签,训练得到第一音频分类模型,包括:通过初始网络模型,确定所述第二音频样本数据集中的每个第二多标签音频样本的预测标签以及每种预测标签的预测概率;

根据所述每种预测标签的预测概率和实际概率,以及预测标签的标签种类数量和所述第二音频样本数据集中第二多标签音频样本的音频样本数量,对所述初始网络模型进行迭代训练,得到所述第一音频分类模型。

5.如权利要求4所述的方法,其特征在于,所述根据所述每种预测标签的预测概率和实际概率,以及预测标签的标签种类数量和所述第二音频样本数据集中第二多标签音频样本的音频样本数量,对所述初始网络模型进行迭代训练,得到所述第一音频分类模型,包括:根据所述每种预测标签的预测概率和实际概率,以及预测标签的标签种类数量和所述第二音频样本数据集中第二多标签音频样本的音频样本数量,确定所述第二音频样本数据集的损失值;

当所述损失值或者迭代次数满足迭代停止条件时,将所述初始网络模型确定为所述第一音频分类模型,所述迭代次数为确定所述损失值的次数;

当所述损失值或者所述迭代次数不满足所述迭代停止条件时,更新所述初始网络模型,直到通过更新后的初始网络模型确定出所述第二音频样本数据集的损失值或者所述迭代次数满足所述迭代停止条件为止,将满足所述迭代停止条件对应的更新后的初始网络模型确定为所述第一音频分类模型。

6.如权利要求1或4所述的方法,其特征在于,所述通过所述第二音频样本数据集中的每个第二多标签音频样本以及所述每个第二多标签音频样本的标签,训练得到第一音频分类模型之后,所述方法还包括:通过所述第一音频样本数据集中的多个第一音频样本和所述多个第一音频样本的标签,对所述第一音频分类模型进行优化。

7.一种音频的分类装置,其特征在于,所述装置包括:

混合模块,用于对第一音频样本数据集中的第一音频样本进行混合,得到第二音频样本数据集,所述第二音频样本数据集中包括至少一个第二多标签音频样本;

确定模块,用于确定所述第二音频样本数据集中的每个第二多标签音频样本的标签;

训练模块,用于通过所述第二音频样本数据集中的每个第二多标签音频样本以及所述每个第二多标签音频样本的标签,训练得到第一音频分类模型;

分类模块,用于当需要对待分类的目标音频样本进行分类时,通过所述第一音频分类模型对所述目标音频样本进行分类。

8.如权利要求7所述的装置,其特征在于,

所述混合模块,还用于从所述第一音频样本数据集中选择至少一组音频样本,每组音频样本包括至少两个第一音频样本;

所述混合模块,还用于对于每组音频样本,根据所述每组音频样本包括的至少两个第一音频样本以及混合比例,对所述至少两个第一音频样本进行混合,得到第二多标签音频样本;

所述混合模块,还用于将所述至少一组音频样本混合得到的至少一个第二多标签音频样本组成所述第二音频样本数据集。

9.如权利要求7或8所述的装置,其特征在于,

所述确定模块,还用于对于所述每个第二多标签音频样本,确定所述第二多标签音频样本对应的至少两个第一音频样本的标签;

所述确定模块,还用于将所述第二多标签音频样本对应的至少两个第一音频样本的标签组成所述第二多标签音频样本的标签。

10.如权利要求7所述的装置,其特征在于,

所述训练模块,还用于通过初始网络模型,确定所述第二音频样本数据集中的每个第二多标签音频样本的预测标签以及每种预测标签的预测概率;

所述训练模块,还用于根据所述每种预测标签的预测概率和实际概率,以及预测标签的标签种类数量和所述第二音频样本数据集中第二多标签音频样本的音频样本数量,对所述初始网络模型进行迭代训练,得到所述第一音频分类模型。

11.如权利要求10所述的装置,其特征在于,

所述训练模块,还用于根据所述每种预测标签的预测概率和实际概率,以及预测标签的标签种类数量和所述第二音频样本数据集中第二多标签音频样本的音频样本数量,确定所述第二音频样本数据集的损失值;

所述训练模块,还用于当所述损失值或者迭代次数满足迭代停止条件时,将所述初始网络模型确定为所述第一音频分类模型,所述迭代次数为确定所述损失值的次数;

所述训练模块,还用于当所述损失值或者所述迭代次数不满足所述迭代停止条件时,更新所述初始网络模型,直到通过更新后的初始网络模型确定出所述第二音频样本数据集的损失值或者所述迭代次数满足所述迭代停止条件为止,将满足所述迭代停止条件对应的更新后的初始网络模型确定为所述第一音频分类模型。

12.如权利要求7或10所述的装置,其特征在于,所述装置还包括:优化模块,用于通过所述第一音频样本数据集中的多个第一音频样本和所述多个第一音频样本的标签,对所述第一音频分类模型进行优化。