1.一种声纹识别方法,其特征在于,包括如下步骤:
根据多个人声语音样本基于特征提取网络进行模型训练,得到特征提取模型;
将测试语音输入所述特征提取模型中,得到测试语音特征向量;
将所述测试语音特征向量与预先建立的注册语音特征向量数据库进行匹配,根据匹配结果确定所述测试语音的注册人;
其中,所述预先建立的注册语音特征向量数据库为将注册人的多条注册语音输入所述特征提取模型中,得到多条注册语音特征向量的累加值,根据所述累加值得到所述多条注册语音的注册语音特征向量平均值。
2.根据权利要求1所述的声纹识别方法,其特征在于,所述根据多个人声语音样本基于特征提取网络进行模型训练,得到特征提取模型包括:构建语音样本库,所述语音样本库包括多个人声语音样本;
将所述多个人声语音样本进行预处理;
将预处理得到的多个人声语音样本由一维语音信息转化为二维语音信息;
构建特征提取网络,将所述二维语音信息输入所述特征提取网络中,得到含有二维语音信息的特征提取网络;
利用三重损失函数对所述含有二维语音信息的特征提取网络进行特征训练,得到特征提取模型。
3.根据权利要求2所述的声纹识别方法,其特征在于,所述利用三重损失函数对所述含有二维语音信息的特征提取网络进行特征训练,包括:构建三元组,从所述多个人声语音样本的二维语音信息中选择第一指定人的第一人声语音样本和第二人声语音样本的二维语音信息以及第二指定人的人声语音样本的二维语音信息,作为所述三元组的三个元素;
通过所述特征提取网络提取所述三个元素的语音特征向量,得到第一指定人的第一语音特征向量 和第二语音特征向量 以及第二指定人的语音特征向量利用三重损失函数缩小所述第一语音特征向量 和第二语音特征向量 之间的距离disap,,以及扩大所述第一语音特征向量 和语音特征向量 之间的距离disan,且满足距离disan>距离disap,从而完成特征训练。
4.根据权利要求1所述的声纹识别方法,其特征在于,所述特征提取网络为Inception-v4特征提取网络。
5.根据权利要求2所述的声纹识别方法,其特征在于,所述将多个人声语音样本进行预处理,具体包括:将所述多个人声语音样本分别裁剪成小于预设时长的短语音;
根据VAD语音活动检测方法去除多个所述短语音中的静音段。
6.根据权利要求2所述的声纹识别方法,其特征在于,所述将预处理得到的多个人声语音样本由一维语音信息转化为二维语音信息,具体包括:将预处理得到的短语音分别根据预设分帧参数进行分帧处理,得到各个短语音对应的多个语句,若所述短语音中的帧数小于所述预设分帧参数,则进行补零处理直至所述短语音中的帧数等于所述预设分帧参数;
根据预设二维参数和Fbank特征提取算法对所述多个语句进行转化,得到二维语音信息。
7.根据权利要求1所述的声纹识别方法,其特征在于,所述根据匹配结果确定所述测试语音的注册人包括:计算所述测试语音特征向量与所述注册语音特征向量平均值的欧氏距离值,如果计算得到的欧氏距离值小于或等于预设值,则得到所述测试语音属于注册人的结果。
8.一种声纹识别装置,其特征在于,包括:
模型建立及训练模块,用于根据多个人声语音样本基于特征提取网络进行模型训练,得到特征提取模型;
特征提取模块,用于将测试语音输入所述特征提取模型中,得到测试语音特征向量;
处理模块,用于将所述测试语音特征向量与预先建立的注册语音特征向量数据库进行匹配,根据匹配结果确定所述测试语音的注册人;
其中,所述预先建立的注册语音特征向量数据库为将注册人的多条注册语音输入所述特征提取模型中,得到多条注册语音特征向量的累加值,根据所述累加值得到所述多条注册语音的注册语音特征向量平均值。
9.一种声纹识别装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。