1.基于双向注意力残差网络的语音欺诈检测方法,其特征在于,所述方法包括如下步骤:步骤1、对语音数据进行预处理,并提取CQT特征矩阵;
步骤2、在训练网络模型阶段,将CQT特征矩阵作为双向注意力残差网络的输入,并利用交叉熵损失函数进行训练,更新网络参数;步骤2的具体过程为:步骤2‑1、将CQT特征矩阵作为深度神经网络的输入,首先将CQT矩阵输入ResNet18网络提取浅层特征表示;ResNet18网络由1个卷积层、8个残差块、1个全连接层组成;其中,残差块表示为:其中,xl为残差块输入,xl+1为输出,h(·)为映射函数,F(·)为残差函数,Wl为加权运算,f(·)为激活函数;每个残差块由两个卷积层组成,池化层采用最大池化,卷积之后会对数据进行归一化处理,激活函数采用ReLU函数;经过多个残差块的特征表示后,再将浅层特征表示通过平均池化层得到中层特征表示,最后将中层特征表示通过全连接层进行降维,得到语音的嵌入特征;
步骤2‑2、将语音的嵌入特征转换为一维时序序列,分别输入到正向门控制循环单元(GRU)和反向GRU网络中,提取时序特征;
步骤2‑3、将正向GRU网络、反向GRU网络得到的时序特征分别通过自注意力网络进行不同权重的归纳学习;其中自注意力机制的Query键、Key键、Value键由时序特征在进行随机失活后的数据构成;自注意力层的具体过程表示为公式:其中,Q、K、V分别为Query键、Key键、Value键对应的矩阵,dk设置为Query键的最后一个维度;
将序列通过自注意力层,能够通过归纳学习对时序特征赋予不同的权重,得到区分性更强的特征表示;
步骤2‑4、将正向、反向自注意力层的输出进行拼接,再通过一个全连接层;其中拼接过程表示为:x=(x1;x2) (3)
其中,x是拼接后的特征,x1是正向自注意力网络的输出,x2是反向自注意力网络的输出;
步骤3、在测试阶段,利用训练好的网络模型作为真实语音与欺诈语音的分类器,对语音进行打分;
步骤4、根据语音的打分结果进行真实语音与欺诈语音的分类。
2.根据权利要求1所述的一种基于双向注意力残差网络的语音欺诈检测方法,其特征在于,所述步骤1的具体过程为:步骤1‑1、对语音进行预处理:
对输入的语音信号采样量化,对量化后的语音长度进行裁剪填补;
步骤1‑2、对预处理的语音提取CQT特征。
3.根据权利要求1所述的一种基于双向注意力残差网络的语音欺诈检测方法,其特征在于,所述步骤3的具体过程为:在测试阶段,利用训练好的网络模型作为真实语音与欺诈语音的分类器,得出两个分数s1、s2。
4.根据权利要求1所述的一种基于双向注意力残差网络的语音欺诈检测方法,其特征在于,所述步骤4的具体过程为:在通过网络分类器后对得到的两个分数进行相减;相减结果大于零的则判断为真实语音,小于零则判断为欺诈语音,判断规则如下: