1.一种电子装置,其特征在于,所述电子装置包括存储器及与所述存储器连接的处理器,所述存储器中存储有可在所述处理器上运行的处理系统,所述处理系统被所述处理器执行时实现如下步骤:声学模型建立步骤,在互动式语音应答IVR场景下用户办理业务时,播报第一预设位数的随机码供该用户跟读,并在跟读后分别为本次播报的随机码及该用户本次跟读的语音建立预设类型的声学模型;
强制整体对齐步骤,将本次播报的随机码的声学模型及该用户本次跟读的语音的声学模型进行强制整体对齐操作,利用预定算法计算该对齐后的两声学模型相同的概率;
身份验证步骤,若该对齐后的两声学模型相同的概率大于预设第一阈值,则提取该用户本次跟读的语音的声纹特征向量,获取该用户在注册成功后预存的标准声纹特征向量,并计算该用户本次跟读的语音的声纹特征向量及该标准声纹特征向量的距离,以对该用户进行身份验证。
2.根据权利要求1所述的电子装置,其特征在于,所述处理系统被所述处理器执行时,还实现如下步骤:在互动式语音应答IVR场景下用户进行声纹注册时,播报第二预设位数的随机码供用户跟读预设次,在每次跟读后分别为播报的随机码及用户跟读的语音建立所述预设类型的声学模型;
分别将每次播报的随机码的声学模型及对应的用户跟读的语音的声学模型进行强制整体对齐操作,利用预定算法计算对齐后的两声学模型相同的概率;
若对齐后的两声学模型相同的概率均大于预设第二阈值,则提取每次用户跟读的语音的声纹特征向量,计算两两声纹特征向量的距离,以分析每次跟读的用户是否为同一用户;
若是,则以该声纹特征向量作为该用户的标准声纹特征向量进行存储。
3.根据权利要求1或2所述的电子装置,其特征在于,所述预设类型的声学模型为深度神经网络-隐马尔可夫模型。
4.根据权利要求1或2所述的电子装置,其特征在于,所述提取该用户本次跟读的语音的声纹特征向量的步骤包括:对该用户本次跟读的语音进行预加重及加窗处理,对每一个加窗进行傅立叶变换得到对应的频谱,将所述频谱输入梅尔滤波器以输出得到梅尔频谱;
在梅尔频谱上进行倒谱分析以获得梅尔频率倒谱系数MFCC,基于所述梅尔频率倒谱系数MFCC组成该用户本次跟读的语音的声纹特征向量。
5.一种身份验证的方法,其特征在于,所述身份验证的方法包括:
S1,在互动式语音应答IVR场景下用户办理业务时,播报第一预设位数的随机码供该用户跟读,并在跟读后分别为本次播报的随机码及该用户本次跟读的语音建立预设类型的声学模型;
S2,将本次播报的随机码的声学模型及该用户本次跟读的语音的声学模型进行强制整体对齐操作,利用预定算法计算该对齐后的两声学模型相同的概率;
S3,若该对齐后的两声学模型相同的概率大于预设第一阈值,则提取该用户本次跟读的语音的声纹特征向量,获取该用户在注册成功后预存的标准声纹特征向量,并计算该用户本次跟读的语音的声纹特征向量及该标准声纹特征向量的距离,以对该用户进行身份验证。
6.根据权利要求5所述的身份验证的方法,其特征在于,所述步骤S1之前,还包括:S01,在互动式语音应答IVR场景下用户进行声纹注册时,播报第二预设位数的随机码供用户跟读预设次,在每次跟读后分别为播报的随机码及用户跟读的语音建立所述预设类型的声学模型;
S02,分别将每次播报的随机码的声学模型及对应的用户跟读的语音的声学模型进行强制整体对齐操作,利用预定算法计算对齐后的两声学模型相同的概率;
S03,若对齐后的两声学模型相同的概率均大于预设第二阈值,则提取每次用户跟读的语音的声纹特征向量,计算两两声纹特征向量的距离,以分析每次跟读的用户是否为同一用户;
S04,若是,则以该声纹特征向量作为该用户的标准声纹特征向量进行存储。
7.根据权利要求5或6所述的身份验证的方法,其特征在于,所述预设类型的声学模型为深度神经网络-隐马尔可夫模型。
8.根据权利要求5或6所述的身份验证的方法,其特征在于,所述提取该用户本次跟读的语音的声纹特征向量的步骤包括:对该用户本次跟读的语音进行预加重及加窗处理,对每一个加窗进行傅立叶变换得到对应的频谱,将所述频谱输入梅尔滤波器以输出得到梅尔频谱;
在梅尔频谱上进行倒谱分析以获得梅尔频率倒谱系数MFCC,基于所述梅尔频率倒谱系数MFCC组成该用户本次跟读的语音的声纹特征向量。
9.根据权利要求5或6所述的身份验证的方法,其特征在于,所述计算该用户本次跟读的语音的声纹特征向量及该标准声纹特征向量的距离的步骤包括:其中,所述 为标准声纹特征向量,所述 为该用户本次跟读的语音的
声纹特征向量。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有处理系统,所述处理系统被处理器执行时实现如权利要求5至9中任一项所述的身份验证的方法的步骤。