1.一种通道注意力传播与聚合下的声纹识别方法,其特征在于:该方法包括以下步骤:S1:原始语音离散信号的二阶小波散射变换;
S2:多尺度特征的声纹映射编码;
S3:声纹编码的相似度评估。
2.根据权利要求1所述的一种通道注意力传播与聚合下的声纹识别方法,其特征在于:所述S1具体为:
小波散射变换系数是通过低通滤波器φ对小波系数的模求平均而得到的,记小波f(t)为中心频率归一化为1的带通滤波器,通过扩张小波f(t)得到小波滤波器组fλ(t):fλ(t)=λf(λt) (1)Q是每个尺度的小波数量,小波f(t)的带宽是 滤波器组由带通滤波器组成,这些带通滤波器以λ的频域为中心,并且带宽为在零阶,由式(2)计算小波系数,该系数对于音频信号接近于零;在计算一阶小波系数时,设置Q1=8,相当于定义具有与梅尔频率滤波器组相同频率尺度的小波;同样是通过低通滤波器φ对小波系数的模求平均获得近似于梅尔频谱的系数:S0x(t)=x*φ(t) (2)由式(4)计算捕获发生在第一层各频带的高频调幅的二阶系数:小波 具有的尺度Q2与Q1不同,设置Q2=1,定义具有更短时间支持的小波,用于表征瞬态特征;得到一个稀疏的表示,将信号的信息集中在尽可能少的小波系数中;这些小波系数由低通滤波器φ对小波系数的模求平均得到,与一阶系数相同,低通滤波器保证时移的局部不变性;
级联一阶与二阶散射变换的特征以形成给定帧的小波散射特征S:S=concatnate(S1x(t,λ1),S2x(t,λ1,λ2)) (5)该特征为相同信号提供了不同尺度特征;该散射特征包括了对数梅尔特征以及更高阶特征,保留了语音信号中的细节信息并且在时间和对数频率上具有局部平移不变性。
3.根据权利要求2所述的一种通道注意力传播与聚合下的声纹识别方法,其特征在于:所述S2具体为:
设计残差连接下的平均分组交替规则,实现声纹特征的全局信息复用,构建适用于不同组别的小尺度卷积核,获取声纹特征的局部信息,降低残差网络参数量;采用“压缩‑扩张”操作进一步筛选声纹特征的有用信息,提高声纹特征的可分性;
在残差连接交替卷积和注意力模块ResA2Net模块模块中,以倒谱系数表征的单个声纹特征通过点卷积运算,转换成n组特征子集,表示为 每个特征子集 的分辨率与输入的声纹特征保持一致,通道数降低为输入特征的1/n;针对每个 构建不同尺寸的卷积核Ki(·),并采用级联交替的方式依次计算相应的特征映射;相应的特征映射Yi表示为:
原始X‑Vector系统中的帧级特征的时间上下文限制为15帧,引入一维“压缩‑扩张”模块与扩张卷积级联,对全局的通道相互依赖性建模,将全局空间信息转换至通道描述中,学习通道间的非线性相互作用与非互斥关系;
一维“压缩‑扩张”模块的第一部分是对输入yt的“压缩”操作:在“扩张”阶段,使用s中的描述计算每个通道的权重:d=σ(W2f(W1s+b1)+b2) (8)其中σ(·)表示sigmoid函数,f(·)表示Mish激活函数, 一维“压缩‑扩张”的操作充当一次残差连接,C和R分别表示输入通道的数量和降低后的尺寸大小,得到的向量d包含每个通道的权值dc∈(0,1),该权值通过通道间的直接相乘应用于原始输入得到ResA2Net模块的输出:原始X‑Vector系统使用最后一层的帧级特征层映射计算汇总统计信息,对于每一个帧级特征层,利用所提出的系统将其聚合连接;
C和T分别对应中间特征映射的通道数和时间维度,d为扩张卷积的扩张空间,S为训练集说话人数量;在多层特征聚合MFA后,将聚合后的帧级特征送入统计池化层,经过该层的输出即为声纹编码;
在网络权值初始化时,在全连接层的权重上引入正则性约束:其中W是网络最后一层的权重,z为一个n维的向量 δw∈(0,1)并且是一个常量,||·||表示Frobenius范数;
提高以余弦相似度为后端相似度计算的声纹识别系统的识别准确率。
4.根据权利要求3所述的一种通道注意力传播与聚合下的声纹识别方法,其特征在于:所述S3具体为:
根据基于小波散射变换与通道注意力传播和聚合的时延神经网络得到的声纹编码,按式(11)对不同声纹编码δk与δh进行相似度计算,以完成声纹识别: