1.一种基于双注意力机制动态卷积的说话人识别方法,其特征在于,包括以下步骤:S1,获取说话人声音信号并将声音信号切为多个片段,提取声音信号的梅尔普特征;
S2,使用通道注意力以及空间注意力融合的双注意力方法提取注意力权重矩阵;
S3,将通道注意力与空间注意力权重矩阵融合作为动态卷积的注意力权重矩阵并与多个静态卷积核按权重相加,得到最终的动态卷积核;
S4,将输入语音数据与动态卷积核卷积得到说话人语音信号的帧级特征数据,帧级数据作为后续全连接分层的输入用于说话人分类网络;
所述S2使用通道注意力以及空间注意力融合的双注意力方法提取注意力权重矩阵,并将其进行每一个元素对应相加,所述权重矩阵生成模型建立步骤包括:S31:Mavg=conv(cin,k,1)(AvgPool(X)),X为输入数据,AvgPool为全局平局池化层,conv为卷积层,其中参数cin为数据的输入通道,k为输出通道数,也是设置的静态卷积核的个数,1为卷积核大小;将输入数据进行全局平均池化后,再进行卷积,得到每个通道的注意力权重参数Mavg;
S32:Mchannel=conv(k,k,1)(ReLU(Mavg))将注意力权重参数矩阵Mavg经过非线性函数ReLU激活后,再进行k×k的卷积,即得到了最终的通道注意力参数矩阵Mchannel;
S33:将输入数据经过最大值池化层(MaxPooling)以及全局平均池化层(AvgPooling)后维度降为2×H×W,其中H为每一帧语音数据的维度,W为语音数据的帧数,将多帧数据通过卷积使其维度降为1×H×W,得到Ms矩阵Ms=conv(cin,1,1)(MaxPool,AvgPool(X))),Ms矩阵为空间上每个位置的权重参数矩阵;
S34:将Ms矩阵进行展平操作(Flatten)后其维度为b×T,其中b为输入数据的批量大小,T为展平后数据的长度;卷积核参数中k为静态卷积核的个数,1为卷积核大小,MF=conv(T,k,1)(Flatten(Ms)),MF为未经非线性激活的空间权重矩阵;
S35:将MF矩阵经过ReLu非线性函数激活之后再进行k×k的卷积得到最终的空间注意力权重参数矩阵Mspatial,Mspatial=conv(k,k,1)(ReLu(MF);
所述步骤S3将通道注意力与空间注意力权重矩阵融合作为动态卷积的注意力权重矩阵并与多个静态卷积核按权重相加,得到最终的动态卷积核,具体包括:所述动态卷积核生成模型建立步骤包括:
S41:首先将得到的通道注意力以及空间注意力参数进行每个元素对应相加其中Mcs即为融合了通道以及空间注意力的双注意力动态卷积核;
S42:将Mcs进行k×k的卷积,再通过归一化指数函数SoftMax将输出数据归一化至0‑1区间内,即得到了最终的动态卷积注意力权重Mattention,Mattention=SoftMax(conv(k,k,1)(Mcs));
S43:最终的动态卷积核参数计算公式为 偏动态卷积核偏重数据b
计算公式为 其中 为计算得到的动态卷积核参数, 为动态卷积核
的偏重数据,k为静态卷积核的个数, 为多个静态卷积核的参数,πk(x)为动态卷积核注意力参数矩阵。
2.根据权利要求1所述的一种基于双注意力机制动态卷积的说话人识别方法,其特征在于,所述步骤S1获取说话人声音信号并将声音信号切为多个片段,提取声音信号的梅尔普特征,具体包括:将声音信号分帧加窗以及傅里叶变换得到梅尔普特征;
S21:设置汉明窗的长度为25ms,步长为10ms;
S22:设置提取分帧特征的维度为40维。
3.根据权利要求1所述的一种基于双注意力机制动态卷积的说话人识别方法,其特征在于,所述S4将输入语音数据与动态卷积核卷积得到说话人语音信号的帧级特征数据,具体包括:S51:将输入语音数据与得到的动态卷积核进行卷积即得到说话人语音信号的帧级特T T T T征数据,计算公式为W~ =g(W x+b),其中W 为输入数据,W~ 为动态卷积后的输出数据,g为动态卷积层,x为动态卷积核参数,b为动态卷积核偏移数据。