1.一种基于深度残差网络和注意力机制的声纹识别方法,其特征在于:包括以下步骤:S1:对采集到的音频数据进行预处理,得到能够模拟人耳特性的梅尔频率倒谱系数MFCC特征X;
S2:构建帧级注意力模块FAM,将步骤S1得到的MFCC特征X经过帧级注意力模块对每帧的重要性进行加权运算,得到加权后的MFCC特征 所述步骤S2包括如下步骤:所述帧级注意力模块FAM由平均池化层和瓶颈层构成;所述平均池化层用于获得MFCC特征每一帧的全局信息嵌入,也就是求每一帧Fn,n∈{1,N}的特征向量的平均值得到N维向量A,公式如下所示:D表示D维特征向量;
所述瓶颈层用于生成不同帧的权重,公式如下所示:
Y=Softmax(W2δ(W1A))
该过程由两层全连接层实现,其中第一全连接层W1将向量A压缩为N/r维向量减少参数量,之后用Relu激活函数δ增加网络的非线性表达能力;第二全连接层W2将向量A恢复为N维,之后经过Softmax激活函数得到N维权重向量Y;将权重向量Y的每一元素分别与原矩阵X的每一行相乘得到新的加权特征图X,公式如下所示:式中Xn为原矩阵X的第n行向量,Yn为权重向量Y的第n个元素;
S3:构建声纹识别网络并进行声纹识别;引入MobileNet的设计思想,将普通卷积替换为深度可分离卷积以降低网络参数量;在ResNet50的每一个layer后加入通道域注意力模块SE Block建模各个特征通道的重要程度,针对不同的说话人增强或抑制不同的通道,最后将特征输入网络中的分类器进行分类,实现声纹识别;所述步骤S3包括如下步骤:S31:利用BlockA代替ResNet50的残差块;所述BlockA采用残差连接结构,其中残差分支采用3*3的深度卷积提取特征,所述3*3卷积核后面加上用于控制输出特征图维度的1*1点向卷积构成可降低网络参数量的深度可分离卷积模块,每一卷积核后跟上标准归一化操作和Relu激活函数增加网络非线性表达能力,最后将残差分支得到的特征图与当前层特征图进行残差连接;
S32:将带有通道域注意力机制的SE Block嵌入每一BlockA的尾部构成声纹识别网络基本组成模块BlockB;所述带有通道域注意力机制的SE Block通过对特征通道间的重要性进行建模,把重要的特征进行强化来提升准确率,即通过学习来自动获取到每个特征通道的重要程度,然后依照这一结果去提升有用的特征并抑制对当前任务用处不大的特征;
S33:在ResNet50原有全连接层的后面加上一层Relu激活函数以及一层全连接层构成新的分类器,完成声纹识别网络的构建;
所述分类器由一个瓶颈层和激活函数Softmax构成,其中瓶颈层的结构与FAM中的瓶颈层结构相同,由两个全连接层和一个Relu激活层构成,用于降维减少全连接层的参数量,最后Softmax层输出一个C维向量代表C个说话人分别对应的概率,选取其中最大概率值进行阈值判定,大于阈值则将最大概率值对应的说话人ID作为最终识别结果,小于阈值则认为是客户语音;
所述声纹识别网络构成如下:3×3Conv(Layer0)‑>3×BlockB(Layer1)‑>
4×BlockB(Layer2)‑>6×BlockB(Layer3)‑>3×BlockB(Layer4)‑>Classifier;其中Layer0的通道数为16,后续每一Layer的通道数为前一Layer通道数的两倍,并且Layer1至Layer4中每一Layer的第一个BlockA的3×3卷积核步长stride设为2以减小特征图尺寸,其余卷积核步长均为1,另外所有3*3卷积核的填充padding设为1。
2.根据权利要求1所述的基于深度残差网络和注意力机制的声纹识别方法,其特征在于:所述步骤S1包括如下步骤:S11:将原始音频数据根据预设的固定长度进行分帧;
S12:对分帧以后的数据进行快速傅里叶变换,将每一帧的波形特征转换成频谱;
S13:将频谱数据转换为MFCC特征,即得到每一帧语音的D维特征向量,原始语音数据被分为N帧,则得到N*D的二维矩阵X。
3.一种基于深度残差网络和注意力机制的声纹识别装置,其特征在于:包括存储器和处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于当执行所述计算机程序时,实现如权利要求1或2所述的基于深度残差网络和注意力机制的声纹识别方法。