利索能及
我要发布
收藏
专利号: 2018102258872
申请人: 平安科技(深圳)有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种电子装置,其特征在于,所述电子装置包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的身份验证系统,所述身份验证系统被所述处理器执行时实现如下步骤:在收到待进行身份验证的目标用户的当前语音数据后,从数据库中获取待验证的身份对应的标准语音数据,将所述当前语音数据和标准语音数据分别按照预设的分帧参数进行分帧处理,以得到所述当前语音数据对应的当前语音帧组和所述标准语音数据对应的标准语音帧组;

利用预设滤波器分别提取出当前语音帧组中各个语音帧的预设类型声学特征和标准语音帧组中各个语音帧的预设类型声学特征;

分别将提取出的当前语音帧组对应的预设类型声学特征和标准语音帧组对应的预设类型声学特征输入预先训练好的预设结构深度神经网络模型,以得到所述当前语音数据和所述标准语音数据各自对应的预设长度的特征矢量;

计算得到的两个特征矢量的余弦相似度,并根据计算出的余弦相似度大小确定身份验证结果,所述身份验证结果包括验证通过结果和验证失败结果。

2.如权利要求1所述的电子装置,其特征在于,在将所述当前语音数据和标准语音数据分别按照预设的分帧参数进行分帧处理的步骤之前,该处理器还用于执行所述身份验证系统,以实现以下步骤:分别对所述当前语音数据和标准语音数据进行活动端点检测,将所述当前语音数据和所述标准语音数据中的非说话人的语音删除。

3.如权利要求1所述的电子装置,其特征在于,所述预设结构深度神经网络模型的训练过程为:S1、获取预设数量语音数据样本,对各个语音数据样本分别标注代表对应的说话人身份的标签;

S2、分别对每个语音数据样本进行活动端点检测,将语音数据样本中非说话人的语音删除,得到预设数量的标准语音数据样本;

S3、将得到的标准语音数据样本的第一百分比作为训练集,第二百分比作为验证集,所述第一百分比与第二百分比的和小于等于100%;

S4、将所述训练集和验证集中的各个标准语音数据样本按照预设的分帧参数分别进行分帧处理,以获得每个标准语音数据样本对应的语音帧组,再利用预设滤波器分别提取出每个语音帧组中的各个语音帧的预设类型声学特征;

S5、将所述训练集中的各个语音帧组对应的预设类型声学特征划分成M批,分批输入所述预设结构深度神经网络模型中进行迭代训练,并在所述预设结构深度神经网络模型训练完成后,采用验证集对所述预设结构深度神经网络模型的准确率进行验证;

S6、若验证得到的准确率大于预设阈值,则模型训练结束;

S7、若验证得到的准确率小于或者等于预设阈值,则增加获取的语音数据样本的数量,并基于增加后的语音数据样本重新执行上述步骤S1-S5。

4.如权利要求3所述的电子装置,其特征在于,所述预设结构深度神经网络模型迭代训练的过程包括:根据模型的当前参数将当前输入每个语音帧组对应的预设类型声学特征转化为对应的一个预设长度的特征矢量;

从各个特征矢量中进行随机选取以获得多个三元组,第i个三元组(xi1,xi2,xi3)由三个不同的特征矢量xi1、xi2和xi3组成,其中,xi1和xi2对应同一个说话人,xi1和xi3对应不同的说话人,i为正整数;

采用预先确定的计算公式计算xi1和xi2之间的余弦相似度 并计算xi1和xi3之间的余弦相似度根据余弦相似度 及预先确定的损失函数L更新模型的参数,所述预先确定的损失函数L的公式为: 其中α是取值范围在0.05~0.2之间常量,N是获得的三元组的个数。

5.如权利要求1-4中任意一项所述的电子装置,其特征在于,所述预设结构深度神经网络模型的网络结构如下:第一层:是数层堆叠的有相同结构的神经网络层,其中,每层神经网络采用并列的一个前向长短期记忆网络LSTM和一个后向LSTM,层数为1~3层;

第二层:是平均层,此层的作用是沿时间轴向对矢量序列求平均值,它将上一层前向LSTM和后向LSTM输出的矢量序列都进行平均化,得到一个前向平均矢量和一个后向平均矢量,并将这两个平均矢量前后串联成一个矢量;

第三层:是深度神经网络DNN全连接层;

第四层:是归一化层,此层将上一层的输入按照L2范数进行归一化,得到长度为1的归一化后的特征矢量;

第五层:是损失层,损失函数L的公式为: 其中α是取值范围在

0.05~0.2之间的常量, 代表属于同一说话人的两个特征矢量的余弦相似度, 代表不属于同一说话人的两个特征矢量的余弦相似度。

6.一种身份验证方法,其特征在于,该身份验证方法包括:

在收到待进行身份验证的目标用户的当前语音数据后,从数据库中获取待验证的身份对应的标准语音数据,将所述当前语音数据和标准语音数据分别按照预设的分帧参数进行分帧处理,以得到所述当前语音数据对应的当前语音帧组和所述标准语音数据对应的标准语音帧组;

利用预设滤波器分别提取出当前语音帧组中各个语音帧的预设类型声学特征和标准语音帧组中各个语音帧的预设类型声学特征;

分别将提取出的当前语音帧组对应的预设类型声学特征和标准语音帧组对应的预设类型声学特征输入预先训练好的预设结构深度神经网络模型,以得到所述当前语音数据和所述标准语音数据各自对应的预设长度的特征矢量;

计算得到的两个特征矢量的余弦相似度,并根据计算出的余弦相似度大小确定身份验证结果,所述身份验证结果包括验证通过结果和验证失败结果。

7.如权利要求6所述的身份验证方法,其特征在于,在将所述当前语音数据和标准语音数据分别按照预设的分帧参数进行分帧处理的步骤之前,所述身份验证方法还包括步骤:分别对所述当前语音数据和标准语音数据进行活动端点检测,将所述当前语音数据和所述标准语音数据中的非说话人的语音删除。

8.如权利要求6所述的身份验证方法,其特征在于,所述预设结构深度神经网络模型的训练过程为:S1、获取预设数量语音数据样本,对各个语音数据样本分别标注代表对应的说话人身份的标签;

S2、分别对每个语音数据样本进行活动端点检测,将语音数据样本中非说话人的语音删除,得到预设数量的标准语音数据样本;

S3、将得到的标准语音数据样本的第一百分比作为训练集,第二百分比作为验证集,所述第一百分比与第二百分比的和小于等于100%;

S4、将所述训练集和验证集中的各个标准语音数据样本按照预设的分帧参数分别进行分帧处理,以获得每个标准语音数据样本对应的语音帧组,再利用预设滤波器分别提取出每个语音帧组中的各个语音帧的预设类型声学特征;

S5、将所述训练集中的各个语音帧组对应的预设类型声学特征划分成M批,分批输入所述预设结构深度神经网络模型中进行迭代训练,并在所述预设结构深度神经网络模型训练完成后,采用验证集对所述预设结构深度神经网络模型的准确率进行验证;

S6、若验证得到的准确率大于预设阈值,则模型训练结束;

S7、若验证得到的准确率小于或者等于预设阈值,则增加获取的语音数据样本的数量,并基于增加后的语音数据样本重新执行上述步骤S1-S5。

9.如权利要求6至8中任意一项所述的身份验证方法,其特征在于,所述预设结构深度神经网络模型的网络结构如下:第一层:是数层堆叠的有相同结构的神经网络层,其中,每层神经网络采用并列的一个前向长短期记忆网络LSTM和一个后向LSTM,层数为1~3层;

第二层:是平均层,此层的作用是沿时间轴向对矢量序列求平均值,它将上一层前向LSTM和后向LSTM输出的矢量序列都进行平均化,得到一个前向平均矢量和一个后向平均矢量,并将这两个平均矢量前后串联成一个矢量;

第三层:是深度神经网络DNN全连接层;

第四层:是归一化层,此层将上一层的输入按照L2范数进行归一化,得到长度为1的归一化后的特征矢量;

第五层:是损失层,损失函数L的公式为: 其中α是取值范围在

0.05~0.2之间的常量, 代表属于同一说话人的两个特征矢量的余弦相似度, 代表不属于同一说话人的两个特征矢量的余弦相似度。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有身份验证系统,所述身份验证系统可被至少一个处理器执行,以使所述至少一个处理器执行如权利要求6-9中的任一项所述的身份验证方法。