利索能及
我要发布
收藏
专利号: 2019110577022
申请人: 南京励智心理大数据产业研究院有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2024-10-09
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于深度学习的声场景分类方法,其特征在于,包括:采用双声道麦克风录制获取原始音频,对所述原始音频降频采样处理后进行分帧加窗预处理;

提取双声道音频的梅尔谱图、双声道音频的谐波打击源分离音频的梅尔谱图、单声道音频的梅尔谱图,并进行预处理;

引入批量归一化层代替Dropout层,构建VGG16卷积网络模型;

对模型训练多个完整的声场景分类模型,将该多个模型的输出结果进行集成,得到最终的分类结果;

所述采用双声道麦克风录制获取原始音频,对所述原始音频降频采样处理后进行分帧加窗预处理包括:获取原始音频数据;

对所述原始音频数据的采样率进行向下降低采样率处理;

对降频采样得到的数据进行分帧加窗预处理;

所述提取双声道音频的梅尔谱图、双声道音频的谐波打击源分离音频的梅尔谱图、单声道音频的梅尔谱图,并进行预处理包括:利用Mel滤波器组获得梅尔频谱图;

提取双声道音频的梅尔谱图过程中,采用HTK方法,将梅尔谱图转换为对数刻度后进行归一化处理得到双声道音频的梅尔谱图;

提取双声道音频的谐波打击源分离音频的梅尔谱图过程中,将原始音频分离为谐波打击源音频,并对分离后的谐波音频和打击源音频分别求取梅尔谱图;

获取单声道音频的梅尔谱图后与谐波打击源分离音频的梅尔谱图进行融合,形成三通道的梅尔谱图;

所述预处理包括:

不划分预处理:对特征谱不进行切割划分;

不重叠划分处理:对频谱以预设周期进行周期性划分,获取特征谱图;

重叠划分处理:对频谱以预设周期以及重叠率进行周期性划分,获取特征谱图;

三种梅尔谱图通过三种预处理获取9组不同的谱图,作为本步骤的输出数据。

2.根据权利要求1所述的基于深度学习的声场景分类方法,其特征在于,所述对模型训练多个完整的声场景分类模型,将该多个模型的输出结果进行集成,得到最终的分类结果包括:将9组不同的谱图作为卷积神经网络的输入数据,进入全连接层进行分类,训练9个完整的声场景分类模型;训练过程中批量大小根据预处理的类型进行预设;采用随机森林作为高层学习器,使用Stacking集成学习方法进行学习。

3.一种基于深度学习的声场景分类系统,其特征在于,包括:音频数据获取单元,用于采用双声道麦克风录制获取原始音频,对所述原始音频降频采样处理后进行预处理;

谱图数据预处理单元,用于从梅尔频谱图中提取双声道音频的梅尔谱图、双声道音频的谐波打击源分离音频的梅尔谱图、单声道音频的梅尔谱图,进行预处理;

模型构建单元,用于构建VGG16卷积网络模型,其中引入批量归一化层代替Dropout层;

训练模型单元,用于对模型训练多个完整的声场景分类模型,将该多个模型的输出结果进行集成,得到最终的分类结果;

所述音频数据获取单元包括:

降采样处理单元,用于获取原始音频数据并对所述原始音频数据的采样率进行向下降低采样率处理;

分帧加窗处理单元,用于对降频采样得到的数据进行先分帧后加窗预处理;

所述谱图数据预处理单元包括:

谱图分离单元,用于利用Mel滤波器组获得梅尔频谱图,分别提取双声道音频的梅尔谱图、双声道音频的谐波打击源分离音频的梅尔谱图、单声道音频的梅尔谱图;

所述谱图分离单元提取双声道音频的梅尔谱图过程中,采用HTK方法,将梅尔谱图转换为对数刻度后进行归一化处理得到双声道音频的梅尔谱图;所述谱图分离单元提取双声道音频的谐波打击源分离音频的梅尔谱图过程中,将原始音频分离为谐波打击源音频,并对分离后的谐波音频和打击源音频分别求取梅尔谱图;所述谱图分离单元获取单声道音频的梅尔谱图后与谐波打击源分离音频的梅尔谱图进行融合,形成三通道的梅尔谱图;

预处理单元,分别对三种谱图进行三种处理形成九组不同的谱图数据,作为模型建立的输入数据;

其中,所述谱图分离单元提取双声道音频的梅尔谱图过程中,采用HTK方法,将梅尔谱图转换为对数刻度后进行归一化处理得到双声道音频的梅尔谱图;

所述谱图分离单元提取谐波打击源分离音频的梅尔谱图过程中,将原始音频分离为谐波打击源音频,并对分离后的谐波音频和打击源音频分别求取梅尔谱图;

所述预处理单元中的处理形式包括:

不划分预处理单元,用于对特征谱不进行切割划分;

不重叠划分处理单元,用于对频谱以预设周期进行周期性划分,获取特征谱图;

重叠划分处理单元,用于对频谱以预设周期以及重叠率进行周期性划分,获取特征谱图。

4.根据权利要求3所述的基于深度学习的声场景分类系统,其特征在于,所述训练模型单元包括:将9组不同的谱图作为卷积神经网络的输入数据,进入全连接层进行分类,训练9个完整的声场景分类模型;训练过程中批量大小根据预处理的类型进行预设;采用随机森林作为高层学习器,使用Stacking集成学习方法进行学习。

5.一种分类装置,其特征在于,包括存储器和处理器,所述存储器上存储有计算机可执行指令,所述处理器运行所述存储器上的计算机可执行指令时实现权利要求1‑2任意一项所述的方法。

6.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,该计算机程序被处理器执行时,实现上述权利要求1‑2任意一项所述的方法。