利索能及
我要发布
收藏
专利号: 2021109127366
申请人: 南京信息工程大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于多特征融合和组合模型的鸟声识别方法,其特征在于,包括以下步骤:步骤1、对读取的原始鸟声音频进行预处理,包括预加重和分帧加窗;

步骤2、对预处理后的原始鸟声音频提取鸟声的梅尔倒谱系数、梅尔滤波后的能量系数、短时过零率和短时频谱质心四种特征,并对四种特征分别归一化后进行纵向拼接形成一个融合特征;以及,对预处理后的原始鸟声音频经短时傅里叶变换STFT的结果绘制STFT语谱图;

步骤3、将形成的一个融合特征和绘制的STFT语谱图分别输入构建的两个基于Inception模块的CNN模型进行训练,训练完成后将两个模型输出的概率数组进行拼接形成一个特征数组,并将该特征数组作为ANN模型的输入进行训练,训练完成后加载上述三个模型的最优参数;

步骤4、将待测的任一鸟声音频输入加载最优参数后的三个模型,得到鸟声识别分类结果。

2.根据权利要求1所述基于多特征融合和组合模型的鸟声识别方法,其特征在于:所述步骤1中对原始鸟声音频采用一阶FIR高通数字滤波器进行预加重。

3.根据权利要求1所述基于多特征融合和组合模型的鸟声识别方法,其特征在于:所述步骤1中对原始鸟声音频采用汉明窗进行分帧加窗。

4.根据权利要求1所述基于多特征融合和组合模型的鸟声识别方法,其特征在于:所述步骤2中对预处理后的原始鸟声音频经短时傅里叶变换后的结果再进行梅尔滤波,得到梅尔滤波后的能量系数特征,并通过对梅尔滤波后的结果取对数再进行离散余弦变换DCT得到梅尔倒谱系数特征。

5.根据权利要求1所述基于多特征融合和组合模型的鸟声识别方法,其特征在于:所述步骤3中采用单层神经元个数为512的ANN模型。