1.一种深度神经网络模型,其特征在于,该深度神经网络模型包括:
第一层结构:是由多层堆叠的有相同预设结构的神经网络层,每个预设结构的神经网络层包括:两个串联的CNN卷积层,两个修正线性单元ReLU,及一个将两个串联的CNN卷积层跨层直连的直连操作X,其中,各个ReLU与各个CNN卷积层一一对应,且各个ReLU分别串联在对应的CNN卷积层后,所述直连操作X将两个串联的CNN卷积层的第一个CNN卷积层的卷积操作的输入与第二个CNN卷积层的卷积操作的输出相加,并将结果送入到第二个CNN卷积层对应的ReLU操作中;
第二层结构:是平均层,此层的作用是沿时间轴向对矢量序列求平均值,它将第一层结构输出的二维矢量序列进行平均化;
第三层结构:是DNN全连接层;
第四层结构:是归一化层,此层将上一层的输入按照L2范数进行归一化,得到长度为1的归一化后的特征矢量;
第五层结构:是损失层,损失函数L的公式为: 其中α是取值范
围在0.05~0.2之间的常量, 代表属于同一说话人的两个特征矢量的余弦相似度, 代表不属于同一说话人的两个特征矢量的余弦相似度。
2.如权利要求1所述的深度神经网络模型,其特征在于,所述深度神经网络模型的训练过程为:S1、获取预设数量语音数据样本,对各个语音数据样本分别标注代表对应的说话人身份的标签;
S2、分别对每个语音数据样本进行活动端点检测,将语音数据样本中非说话人的语音删除,得到预设数量的标准语音数据样本;
S3、将得到的标准语音数据样本的第一百分比作为训练集,第二百分比作为验证集,所述第一百分比与第二百分比的和小于等于100%;
S4、将所述训练集和验证集中的各个标准语音数据样本按照预设的分帧参数分别进行分帧处理,以获得每个标准语音数据样本对应的语音帧组,再利用预设滤波器分别提取出每个语音帧组中的各个语音帧的预设类型声学特征;
S5、将所述训练集中的各个语音帧组对应的预设类型声学特征划分成M批,分批输入所述深度神经网络模型中进行迭代训练,并在所述深度神经网络模型训练完成后,采用验证集对所述深度神经网络模型的准确率进行验证;
S6、若验证得到的准确率大于预设阈值,则模型训练结束;
S7、若验证得到的准确率小于或者等于预设阈值,则增加获取的语音数据样本的数量,并基于增加后的语音数据样本重新执行上述步骤S1-S5。
3.如权利要求2所述的深度神经网络模型,其特征在于,所述预设滤波器为梅尔滤波器,所述预设类型声学特征为梅尔频率倒谱系数MFCC。
4.如权利要求2所述的深度神经网络模型,其特征在于,所述深度神经网络模型迭代训练的过程包括:根据模型的当前参数将当前输入每个语音帧组对应的预设类型声学特征转化为对应的一个预设长度的特征矢量;
从各个特征矢量中进行随机选取以获得多个三元组,第i个三元组(xi1,xi2,xi3)由三个不同的特征矢量xi1、xi2和xi3组成,其中,xi1和xi2对应同一个说话人,xi1和xi3对应不同的说话人,i为正整数;
采用预先确定的计算公式计算xi1和xi2之间的余弦相似度 并计算xi1和xi3之间的余弦相似度根据余弦相似度 及预先确定的损失函数L更新模型的参数,所述预先确定的
损失函数L的公式为: 其中α是取值范围在0.05~0.2之间常量,N
是获得的三元组的个数。
5.一种电子装置,其特征在于,所述电子装置包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的身份验证系统,所述身份验证系统被所述处理器执行时实现如下步骤:在收到待进行身份验证的目标用户的当前语音数据后,从数据库中获取待验证的身份对应的标准语音数据,将所述当前语音数据和标准语音数据分别按照预设的分帧参数进行分帧处理,以得到所述当前语音数据对应的当前语音帧组和所述标准语音数据对应的标准语音帧组;
利用预设滤波器分别提取出当前语音帧组中各个语音帧的预设类型声学特征和标准语音帧组中各个语音帧的预设类型声学特征;
将提取出的当前语音帧组对应的预设类型声学特征和标准语音帧组对应的预设类型声学特征输入预先训练好的预设结构深度神经网络模型,以得到所述当前语音数据和所述标准语音数据各自对应的预设长度的特征矢量,其中,所述预设结构深度神经网络模型为权利要求1或3所述的深度神经网络模型;
计算得到的两个特征矢量的余弦相似度,并根据计算出的余弦相似度大小确定身份验证结果,所述身份验证结果包括验证通过结果和验证失败结果。
6.如权利要求5所述的电子装置,其特征在于,在将所述当前语音数据和标准语音数据分别按照预设的分帧参数进行分帧处理的步骤之前,该处理器还用于执行所述身份验证系统,以实现以下步骤:分别对所述当前语音数据和标准语音数据进行活动端点检测,将所述当前语音数据和所述标准语音数据中的非说话人的语音删除。
7.一种身份验证方法,其特征在于,该身份验证方法包括:
在收到待进行身份验证的目标用户的当前语音数据后,从数据库中获取待验证的身份对应的标准语音数据,将所述当前语音数据和标准语音数据分别按照预设的分帧参数进行分帧处理,以得到所述当前语音数据对应的当前语音帧组和所述标准语音数据对应的标准语音帧组;
利用预设滤波器分别提取出当前语音帧组中各个语音帧的预设类型声学特征和标准语音帧组中各个语音帧的预设类型声学特征;
将提取出的当前语音帧组对应的预设类型声学特征和标准语音帧组对应的预设类型声学特征输入预先训练好的预设结构深度神经网络模型,以得到所述当前语音数据和所述标准语音数据各自对应的预设长度的特征矢量,其中,所述预设结构深度神经网络模型为权利要求1、3、4中任意一项所述的深度神经网络模型;
计算得到的两个特征矢量的余弦相似度,并根据计算出的余弦相似度大小确定身份验证结果,所述身份验证结果包括验证通过结果和验证失败结果。
8.如权利要求7所述的身份验证方法,其特征在于,在将所述当前语音数据和标准语音数据分别按照预设的分帧参数进行分帧处理的步骤之前,所述身份验证方法还包括步骤:分别对所述当前语音数据和标准语音数据进行活动端点检测,将所述当前语音数据和所述标准语音数据中的非说话人的语音删除。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有身份验证系统,所述身份验证系统可被至少一个处理器执行,以使所述至少一个处理器执行如下步骤:在收到待进行身份验证的目标用户的当前语音数据后,从数据库中获取待验证的身份对应的标准语音数据,将所述当前语音数据和标准语音数据分别按照预设的分帧参数进行分帧处理,以得到所述当前语音数据对应的当前语音帧组和所述标准语音数据对应的标准语音帧组;
利用预设滤波器分别提取出当前语音帧组中各个语音帧的预设类型声学特征和标准语音帧组中各个语音帧的预设类型声学特征;
将提取出的当前语音帧组对应的预设类型声学特征和标准语音帧组对应的预设类型声学特征输入预先训练好的预设结构深度神经网络模型,以得到所述当前语音数据和所述标准语音数据各自对应的预设长度的特征矢量,其中,所述预设结构深度神经网络模型为权利要求1、3、4中任意一项所述的深度神经网络模型;
计算得到的两个特征矢量的余弦相似度,并根据计算出的余弦相似度大小确定身份验证结果,所述身份验证结果包括验证通过结果和验证失败结果。
10.如权利要求9所述的计算机可读存储介质,其特征在于,在将所述当前语音数据和标准语音数据分别按照预设的分帧参数进行分帧处理的步骤之前,该处理器还用于执行所述身份验证系统,以实现以下步骤:分别对所述当前语音数据和标准语音数据进行活动端点检测,将所述当前语音数据和所述标准语音数据中的非说话人的语音删除。