买专利、卖专利、专利购买、专利交易、专利出售、高企申报-基于多路声学特征数据增强的声场景分类方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

基于多路声学特征数据增强的声场景分类方法

￥25200

专利号： 2020107261525

申请人：江南大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-03-02

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.基于多路声学特征数据增强的声场景分类方法，其包括以下步骤：S1：采集待分类的原始音频样本信息，其中包括音频时长和采样频率，并对其进行预处理，获得待处理样本信息；

其特征在于，其还包括一下步骤：

S2：对所述待处理样本信息进行傅里叶变换处理后，输入到用于提取声学特征的滤波器，得到所述待处理样本信息对应的待分类样本声学特征；

S3：将所述待分类样本声学特征的数据输入到数据增强用特征生成器；

所述数据增强用特征生成器中，设置N种声学特征作为声场景分类模型的输入，且每一种声学特征对应分类模型的一个输入模块；所述数据增强用特征生成器的输出为：数据增强后特征向量所述数据增强用特征生成器基于Mixup数据增强方式，对输入的所述待分类样本声学特征的数据进行特征增强操作；输入的声学特征数据经过分批处理后生成虚拟样本，然后通过迭代器将虚拟样本图层合并到数据增强后的特征图层中，得到最终的所述数据增强后特征向量；

S4：构建声场景分类模型；

基于MCNN模型构建多支路的所述声场景分类模型；

所述声场景分类模型包括：支路网络，多个所述支路网络输出后，经融合层的Concatenate合并级联处理，经主全连接层后，通过Softmax函数输出分类预测；

基于VGG网络模型构建所述声场景分类模型的每个支路网络模型；

所述支路网络模型包括：三个卷积块、一个支路全连接块；

所述卷积块包括：两个卷积层、两个BR层、一个最大池化层；

S5：训练所述声场景分类模型，得到训练好的所述声场景分类模型；

S6：将步骤S3中获得的所述数据增强后特征向量输入到训练好的所述声场景分类模型中，进行场景分类筛选，输出对应的最终分类预测结果。

2.根据权利要求1所述基于多路声学特征数据增强的声场景分类方法，其特征在于：步骤S2中，所述待分类样本声学特征的数据结构为二维向量，第一维数据表征音频样本的帧数信息，第二维数据表征音频样本经过特定的声学特征提取处理后的特征信息。

3.根据权利要求1所述基于多路声学特征数据增强的声场景分类方法，其特征在于：步骤S2中，所述滤波器提取所述待分类样本声学特征的方案包括：设：所述待分类样本声学特征为N路，则有：

N＝1时的声学特征选取方案如下：

(1)[128维Log-mel语谱图]