1.一种基于关联特征判别性融合网络的伪造语音检测方法,其特征在于,包括:对语音数据提取CQT特征矩阵,并将CQT矩阵输入判识模型,判识模型的处理过程包括:首先将CQT矩阵输入双向注意力网络和SCG‑Res2Net50这个两个双并行网络,通过双并行网络得到两个高级表示特征矩阵,表示为X和Y;
所述双向注意力网络处理过程如下:
首先通过第一特征提取网络进行特征提取,得到语音的嵌入特征;然后将语音的嵌入特征转换为一维序列,分别输入到正向GRU和反向GRU网络中提取时序特征,GRU为门控制循环单元;将正向GRU网络、反向GRU网络得到的时序特征分别通过自注意力网络,然后将输出进行拼接,再通过一个全连接层得到双向注意力网络输出的特征;
针对特征矩阵X和Y,分别求出两个特征矩阵的类间散度矩阵Sbx、Sby和两个类内散度矩‑1阵Swx、Swx;然后将类内散度矩阵的逆和类间散度矩阵相乘Swx Sbx,将其称为联合类内间散度矩阵,对联合类内间散度矩阵进行特征分解,求出特征向量P和特征值Λ;利用将特征矩阵X进行投影得到对应的投影矩阵X′=WbxX;采用相同的方式得到并将特征矩阵Y的投影矩阵进行投影,得到对应的投影矩阵Y'=WbyY;
T
将得到X′和Y'作相关性变换,确定集间协方差矩阵Sx′y=X′Y′,然后利用奇异值分解T对S′xy进行对角化,得到S′xy=U∑V,其中U和V是奇异值分解后的正交矩阵,∑是一个对角‑1/2 ‑1/2 ′ ′矩阵,对角元素为奇异值;令Wcx=U∑ ,Wcy=V∑ ,将Wcx和Wcy作为X和Y 的投影矩阵进* *行投影得到X=WcxX'和Y=WcyY';
* *
再将X和Y 拼接起来得到特征融合后特征,再通过一个全连接层,全连接层输出维度是
2,分别是表示裁定样本是伪造语音的节点数值和裁定样本是真实语音的节点数值,即判识模型最终输出out={neg_score,pos_score},其中neg_score为裁定伪造语音节点数值,pos_score为裁定真实语音节点数值;
最后根据判识模型最终输出out中的两个数值相减的结果进行真实语音与伪造语音的分类。
2.根据权利要求1所述的一种基于关联特征判别性融合网络的伪造语音检测方法,其特征在于,根据判识模型最终输出out中的两个数值相减的结果进行真实语音与伪造语音的分类的过程中,neg_score‑pos_score>0判定为伪造语音,pos_score‑neg_score≥0判定为真实语音。
3.根据权利要求1所述的一种基于关联特征判别性融合网络的伪造语音检测方法,其特征在于,在对语音数据提取CQT特征矩阵之前,需要对语音数据进行预处理,对语音进行预处理的过程中,首先对输入的语音信号采样量化,然后对量化后的语音长度进行裁剪填补。
4.根据权利要求1所述的一种基于关联特征判别性融合网络的伪造语音检测方法,其特征在于,所述第一特征提取网络为ResNet18网络。
5.根据权利要求1所述的一种基于关联特征判别性融合网络的伪造语音检测方法,其特征在于,所述SCG‑Res2Net50包括1个卷积层、4个残差层、1个均值池化层和一个flatten层,4个残差层分别包括3、4、6、3个Res2Net块。
6.根据权利要求1至5任意一项所述的一种基于关联特征判别性融合网络的伪造语音检测方法,其特征在于,所述判识模型是预先训练好的,训练过程包括以下步骤:基于用于训练的真实语音与伪造语音构建训练集,然后将训练集的训练样本输入判识模型进行处理,每个样本在输出维度是2的全连接层都会得到在这两个节点有相应的数值,根据输出out中的两个数值相减的结果进行真实语音与伪造语音的分类;通过交叉熵损失函数对网络两个维度的节点数值相减而判定样本为真实或伪造语音的结果和样本是真实或伪造语音的确切标签作对比,最后利用梯度下降算法对投影矩阵网络参数更新;
经过训练集的训练,得到训练好的网络模型。
7.一种基于关联特征判别性融合网络的伪造语音检测系统,其特征在于,包括:CQT特征矩阵提取单元:对语音数据提取CQT特征矩阵;
语音判识单元:将CQT矩阵输入判识模型进,最后根据判识模型最终输出out中的两个数值相减的结果进行真实语音与伪造语音的分类;
所述判识模型的处理过程包括:
首先将CQT矩阵输入双向注意力网络和SCG‑Res2Net50这个两个双并行网络,通过双并行网络得到两个高级表示特征矩阵,表示为X和Y;
所述双向注意力网络处理过程如下:
首先通过第一特征提取网络进行特征提取,得到语音的嵌入特征;然后将语音的嵌入特征转换为一维序列,分别输入到正向GRU和反向GRU网络中提取时序特征,GRU为门控制循环单元;将正向GRU网络、反向GRU网络得到的时序特征分别通过自注意力网络,然后将输出进行拼接,再通过一个全连接层得到双向注意力网络输出的特征;
针对特征矩阵X和Y,分别求出两个特征矩阵的类间散度矩阵Sbx、Sby和两个类内散度矩‑1阵Swx、Swx;然后将类内散度矩阵的逆和类间散度矩阵相乘Swx Sbx,将其称为联合类内间散度矩阵,对联合类内间散度矩阵进行特征分解,求出特征向量P和特征值Λ;利用将特征矩阵X进行投影得到对应的投影矩阵X′=WbxX;采用相同的方式得到并将特征矩阵Y的投影矩阵进行投影,得到对应的投影矩阵Y'=WbyY;
T
将得到X′和Y'作相关性变换,确定集间协方差矩阵Sx′y=X′Y′,然后利用奇异值分解T对S′xy进行对角化,得到S′xy=U∑V,其中U和V是奇异值分解后的正交矩阵,∑是一个对角‑1/2 ‑1/2矩阵,对角元素为奇异值;令Wcx=U∑ ,Wcy=V∑ ,将Wcx和Wcy作为X′和Y′的投影矩阵进* *行投影得到X=WcxX'和Y=WcyY';
* *
再将X和Y 拼接起来得到特征融合后特征,再通过一个全连接层,全连接层输出维度是
2,分别是表示裁定样本是伪造语音的节点数值和裁定样本是真实语音的节点数值,即判识模型最终输出out={neg_score,pos_score},其中neg_score为裁定伪造语音节点数值,pos_score为裁定真实语音节点数值。
8.根据权利要求7所述的一种基于关联特征判别性融合网络的伪造语音检测系统,其特征在于,根据判识模型最终输出out中的两个数值相减的结果进行真实语音与伪造语音的分类的过程中,neg_score‑pos_score>0判定为伪造语音,pos_score‑neg_score≥0判定为真实语音。
9.根据权利要求7或8所述的一种基于关联特征判别性融合网络的伪造语音检测系统,其特征在于,所述系统还包括语音预处理模块;
语音预处理模块:在CQT特征矩阵提取单元对语音数据提取CQT特征矩阵之前,对语音数据进行预处理,对语音进行预处理的过程中,首先对输入的语音信号采样量化,然后对量化后的语音长度进行裁剪填补。
10.根据权利要求9所述的一种基于关联特征判别性融合网络的伪造语音检测系统,其特征在于,所述第一特征提取网络为ResNet18网络;所述SCG‑Res2Net50包括1个卷积层、4个残差层、1个均值池化层和一个flatten层,4个残差层分别包括3、4、6、3个Res2Net块。