1.一种说话人身份确认方法,其特征在于,包括以下步骤:获取已训练的说话人确认神经网络;
将待识别说话人语音与说话人语音数据库输入至所述已训练的说话人确认神经网络,识别所述待识别说话人语音对应的说话人的身份;其中,所述说话人语音数据库中包括多个不同说话人的多个不同语音;
还包括预先训练说话人确认神经网络的步骤,具体包括:构建说话人确认神经网络,用以提取说话人特征表示;
基于不同说话人的不同语音子集选择训练样本;
根据所述训练样本确定扩展相似度矩阵;
基于所述训练样本以及所述扩展相似度矩阵训练所述说话人确认神经网络,获得所述已训练的说话人确认神经网络;
其中,所述训练样本包括待识别语音样本、正训练样本、用于对比的负训练样本以及用于补充所述正训练样本数量的辅助训练样本,所述基于不同说话人的不同语音子集选择训练样本,具体包括:
选取N个不同说话人,所述不同说话人包括一个目标说话人和N‑1个对比说话人,且所述不同说话人中的每一个说话人均选取N‑1个语音子集,所述语音子集中包含M句语音;
从所述目标说话人的语音子集中,选择一个语音子集作为目标语音子集,并从所述目标语音子集中选择一句语音作为所述待识别语音样本;并将所述目标语音子集中的其它语音作为所述正训练样本;
将所述目标说话人的语音子集中除所述目标语音子集外的其它语音子集作为所述辅助训练样本;
从所述对比说话人的语音子集中选择一个语音子集作为所述负训练样本;
其中,所述根据所述训练样本确定扩展相似度矩阵,具体包括:根据所述正训练样本、所述负训练样本以及所述辅助训练样本,获得正训练样本中心、负训练样本中心以及辅助训练样本中心;
根据所述待识别语音样本与所述正训练样本中心,获得所述待识别语音样本与所述正训练样本中心的距离值,基于所述待识别语音样本与所述正训练样本中心的距离值构建向量矩阵;
获取所述待识别语音样本与所述负训练样本中心的距离值,基于所述待识别语音样本与所述负训练样本中心的距离值构建负训练样本相似度矩阵;
将所述向量矩阵以及所述负训练样本相似度矩阵组合成正负相似度矩阵;
获取所述待识别语音样本与所述辅助训练样本中心的距离值,基于所述待识别语音样本与所述辅助训练样本中心的距离值建立辅助相似度矩阵;
根据所述正负相似度矩阵以及所述辅助相似度矩阵,获得所述扩展相似度矩阵。
2.根据权利要求1所述的说话人身份确认方法,其特征在于,所述构建说话人确认神经网络,具体包括:
获取语音样本;
提取所述语音样本的声学特征;
将所述声学特征输入LSTM网络中学习所述语音样本的说话人特征表示,获得所述说话人确认神经网络。
3.根据权利要求1或2所述的说话人身份确认方法,其特征在于,所述方法还包括:构建损失函数,基于所述损失函数对所述说话人确认神经网络进行优化收敛。
4.根据权利要求3所述的说话人身份确认方法,其特征在于,所述损失函数的表达式为:
其中,ei,o表示待识别语音样本中待识别目标说话人o的语音子集中的第i句语音样本;
N表示不同的说话人数量;k表示待识别语音样本中的第k个辅助语音子集;j表示负训练样本中的第j个语音子集;σ表示sigmoid函数,Si,ok,ass表示待识别语音样本与第k个辅助语音子集的辅助训练样本中心的距离值,Si,oi,pos表示待识别语音样本与正训练样本中心的距离值,Si,oj,neg表示待识别语音样本与第j个语音子集的负训练样本中心的距离值;α为调节因子。
5.一种说话人身份确认装置,其特征在于,包括:获取模块,用于获取已训练的说话人确认神经网络;
识别模块,用于将待识别说话人语音与说话人语音数据库输入至所述已训练的说话人确认神经网络,识别所述待识别说话人语音对应的说话人的身份;
所述获取模块还用于预先训练说话人确认神经网络,具体包括:构建说话人确认神经网络,用以提取说话人特征表示;
基于不同说话人的不同语音子集选择训练样本;
根据所述训练样本确定扩展相似度矩阵;
基于所述训练样本以及所述扩展相似度矩阵训练所述说话人确认神经网络,获得所述已训练的说话人确认神经网络;
其中,所述训练样本包括待识别语音样本、正训练样本、用于对比的负训练样本以及用于补充所述正训练样本数量的辅助训练样本,所述基于不同说话人的不同语音子集选择训练样本,具体包括:
选取N个不同说话人,所述不同说话人包括一个目标说话人和N‑1个对比说话人,且所述不同说话人中的每一个说话人均选取N‑1个语音子集,所述语音子集中包含M句语音;
从所述目标说话人的语音子集中,选择一个语音子集作为目标语音子集,并从所述目标语音子集中选择一句语音作为所述待识别语音样本;并将所述目标语音子集中的其它语音作为所述正训练样本;
将所述目标说话人的语音子集中除所述目标语音子集外的其它语音子集作为所述辅助训练样本;
从所述对比说话人的语音子集中选择一个语音子集作为所述负训练样本;
其中,所述根据所述训练样本确定扩展相似度矩阵,具体包括:根据所述正训练样本、所述负训练样本以及所述辅助训练样本,获得正训练样本中心、负训练样本中心以及辅助训练样本中心;
根据所述待识别语音样本与所述正训练样本中心,获得所述待识别语音样本与所述正训练样本中心的距离值,基于所述待识别语音样本与所述正训练样本中心的距离值构建向量矩阵;
获取所述待识别语音样本与所述负训练样本中心的距离值,基于所述待识别语音样本与所述负训练样本中心的距离值构建负训练样本相似度矩阵;
将所述向量矩阵以及所述负训练样本相似度矩阵组合成正负相似度矩阵;
获取所述待识别语音样本与所述辅助训练样本中心的距离值,基于所述待识别语音样本与所述辅助训练样本中心的距离值建立辅助相似度矩阵;
根据所述正负相似度矩阵以及所述辅助相似度矩阵,获得所述扩展相似度矩阵。
6.一种计算机可读存储介质,包括指令,其特征在于,当所述指令在计算机上运行时,使所述计算机执行根据权利要求1至4任一项所述的说话人身份确认方法。
7.一种说话人身份确认装置,包括存储器、处理器及存储在所述存储器上的并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至4任一项所述的说话人身份确认方法。