利索能及
我要发布
收藏
专利号: 2019101824618
申请人: 南京邮电大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于会议场景小样本条件下的声纹准确识别方法,其特征在于:包括以下步骤:步骤(1):先在训练阶段对基于会议场景小样本执行特征提取操作,具体步骤如下:步骤(1.1):先对经特征提取后的每个说话人的特征向量矩阵执行差异化特征与样本点操作,将每个说话人对应的特征向量矩阵转化成同时具备行向量间数据差异最大化和列向量间数据差异最大化的特征矩阵;

步骤(1.2):对经差异化特征与样本点操作后的特征矩阵执行独立化特征矩阵操作,将经差异化特征与样本点操作后的特征矩阵转化成矩阵中列向量是不独立的特征矩阵;

步骤(1.3):将得到的每个说话人对应的矩阵中列向量是不独立的特征矩阵按照顺序一一输入进选定的模型里,然后按照模型对特征数据的格式要求转化特征矩阵,再按照模型训练步骤,分别训练出针对每个说话人独特的预判模型并保存预判模型;

步骤(2):在识别阶段对待测语音样本执行特征提取操作,具体步骤如下:

步骤(2.1):筛选特征数据:先将训练阶段每个说话人经特征提取后对应的特征向量样本点均值矩阵结合在一起组成筛选矩阵,然后将待测语音经特征提取后对应的特征向量样本点均值矩阵中的列向量与筛选矩阵中各特征向量样本点均值矩阵中的列向量一一相减,然后根据阈值,将待测语音经特征提取后对应的特征向量样本点均值矩阵中与所有说话人特征向量样本点均值差异度都大或者都小的列向量剔除出去,只保留其余列向量;

步骤(2.2):预判识别结果:将待测语音的特征向量样本点均值矩阵中经筛选剔除后保留的列向量组成特征向量矩阵,再对该特征向量矩阵依次执行差异化特征与样本点操作及独立化特征矩阵操作,得到待测语音对应的矩阵中列向量是不独立的特征矩阵;然后分别计算训练阶段每个说话人对应的矩阵中列向量是不独立的特征矩阵与待测语音对应的矩阵中列向量是不独立的特征矩阵之间的相似度,并按相似度的大小选取训练阶段适当数目的说话人作为预判的结果;

步骤(2.3):识别目标说话人:将待测语音对应的矩阵中列向量是不独立的特征矩阵带入到预判结果中各说话人对应的预判模型里,计算待测语音对应的矩阵中列向量是不独立的特征矩阵在每个预判模型中得到的概率,并选取概率最高的那个预判模型作为识别结果,该识别结果也就是目标说话人。

2.根据权利要求1所述的一种基于会议场景小样本条件下的声纹准确识别方法,其特征在于:在步骤(1.1)中,差异化特征与样本点操作的具体方法如下:假设通过特征提取操作后得到的其中一个目标说话人的特征向量矩阵为xij,其中,0≤i≤m,0≤j≤n;按照公式(1.1)、公式(1.2)分别计算说话人对应的特征间均值矩阵Ei与特征向量样本点间均值矩阵Fj;

然后根据公式(1.3),计算行向量间数据差异最大化特征矩阵;

其中,xij为矩阵特征向量,Ei为特征间均值矩阵,aij为行向量间数据差异最大化特征矩阵;

然后根据公式(1.4),计算列向量间数据差异最大化特征矩阵;

其中,xij为矩阵特征向量,Fj为特征向量样本点间均值矩阵,bij为列向量间数据差异最大化特征矩阵;

然后,根据公式(1.5)和公式(1.6)分别行向量间数据差异最大化特征矩阵aij和列向量间数据差异最大化特征矩阵bij执行归一化过程;

其中ajmax是指aij矩阵中第j列中的最大值,ajmin是指aij矩阵中第j列中的最小值,aimax是指aij矩阵中第i行中的最大值,aimin是指aij矩阵中第i行中的最小值,aij为行向量间数据差异最大化特征矩阵,bij为列向量间数据差异最大化特征矩阵;

最后,根据公式(1.7)的操作步骤合并归一化后的矩阵aij′、bij′,得到同时具备行向量间数据差异最大化和列向量间数据差异最大化的特征矩阵wij,其中,wij为合并后同时具备行向量间数据差异最大化和列向量间数据差异最大化的特征矩阵,aij′为归一化后的行向量间数据差异最大化特征矩阵,bij′为归一化后的列向量间数据差异最大化特征矩阵。

3.根据权利要求2所述的一种基于会议场景小样本条件下的声纹准确识别方法,其特征在于:在步骤(1.2)中,独立化特征矩阵操作的具体方法如下:步骤(1.2.1):计算新特征向量:

假设GA={w1,w2,...,wm},wi是列向量,列数为语音信号的帧数,首先计算wi的均值,其中1≤i≤n,得出均值 其中1≤i≤n,然后计算wi与 的差值,新的步骤(1.2.2):计算协方差:

根据上步计算出的新特征向量 可以求出特征的协方差矩阵S,计算过程如公式

(1.8)所示:

步骤(1.2.3):计算新特征矩阵:

利用幂法或逆幂法计算协方差矩阵S的特征值和特征向量,得出的特征值为λi∈{λ1,λ2,...,λm},且满足λ1>λ2>...>λm,与特征值对应的特征向量为yi∈{y1,y2,...,ym},其中yi对应的就是执行独立化特征矩阵操作后得到的特征矩阵。

4.根据权利要求3所述的一种基于会议场景小样本条件下的声纹准确识别方法,其特征在于:在步骤(2.2)中,将待测语音的特征向量样本点均值矩阵中经筛选剔除后保留的列向量组成特征向量矩阵,并对该特征向量矩阵依次执行差异化特征与样本点操作及独立化特征矩阵操作,得到的特征矩阵为yi′,将训练阶段每个说话人对应的矩阵中列向量是不独立的特征矩阵假设为Ai∈{A1,A2,...,AH},其中Ai表示第i个说话人对应的特征矩阵,H表示声纹识别系统中的总人数;假设B为经过上述操作得到的yi′,Ai中的数据用aij表示,B中数据用bij表示,每个说话人对应的特征矩阵Ai与B矩阵的相似度计算方法,具体包括以下步骤:步骤(2.2.1):计算矩阵行的匹配程度,计算公式如下:

其中,dij表示矩阵行的匹配程度;

步骤(2.2.2):从Ai矩阵中提取与B中行最匹配的子矩阵,计算公式如下:Ci=mindij     (1.10)

其中:dij表示矩阵行的匹配程度,j=1,2,...,n,Ci对应的Ai矩阵中那一行就是与B矩阵中第i行最匹配的行,将Ci对应的Ai矩阵中的行组成一个最近似矩阵D,其中D与B行数相同,列数也相同,并且匹配度最高;

步骤(2.2.3):计算D与B的相似度,计算公式如下:

其中,dij表示D矩阵中的数据,bij表示B矩阵中的数据。