1.一种基于MFCC+MP融合特征的异常声事件识别方法,其特征是,包括如下步骤:
1)第一次声音预处理:第一次声音预处理是对选自声音数据库中的声音信号进行归一化处理、分帧处理和加窗处理,归一化处理是将采集到的声音信号归一化到-1-1之间;分帧处理是将一段声音信号分为一组短且等长的时间帧,声音信号的采样频率为44.1KHz时,取
1024个点为一帧,且相邻两帧之间有重叠,称为帧移,取帧移为 加窗处理采用汉明窗处理;
2)第一次声音特征提取:首先对每帧信号提取其12阶的MFCC,然后采用BP算法对每帧声音信号进行分解,其字典采用Gabor原子,公式为其中 θ∈[0,2π];s、u、ω、θ分别代表原子
的大小、时间、频率和相位,取s=2p,1≤p≤8;u={0,64,128};ω=Ki2.6,1≤i≤35,K=0.5×35-2.6,θ=0;取前五个原子的s,ω参数以及原子的均值和方差与mfcc串联作为该帧声音信号的特征向量,然后对本声音段的每一帧声音信号求此特征向量,并对求得的特征向量求一阶及二阶差分参数作为动态补充特征,最终取该段声音中的60帧作为该段声音的特征表示;
3)分类器训练:分类器采用卷积神经网络,所述的卷积神经网络包括顺序连接的卷积层c1、池化层s1、卷积层c2、池化层s2、全连接层f1和输出层即out层,在训练分类器时,使用混有噪声的声音库对神经网络进行训练;
4)实测声音输入:采集实测声音;
5)第二次声音预处理:首先对实测声音归一化处理、分帧处理和加窗处理,然后再进行噪声消减,噪声消减采用幅度谱减法,将每帧声音信号的短时幅度谱减去预先采集的噪声的短时幅度谱;
6)第二次特征提取:对实测声音第二次特征提取的方式与步骤2)中的第一次特征提取方法一致;
7)分类器的应用:借鉴机器视觉中采用滑动窗定位图像中前景图像位置的方法对采集到的一段声音片段进行异常声音段的检测和识别,由于取60帧的声音特征作为识别特征,因此利用步骤3)训练好的分类器从声音片段的前60帧进行识别,如果未识别到异常声音则往后移动60帧继续识别,直到识别到异常声时,将该时刻标记为异常声的开始时刻,继续往后检测,直到检测不到异常声,将前一时刻标记为异常声结束时刻;
8)检测结果输出:输出实测声音中是否有异常声音以及该异常声音的起始和结束时刻。