利索能及
我要发布
收藏
专利号: 2018113471843
申请人: 平安科技(深圳)有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种通话分离方法,其特征在于,所述方法包括:

获取原始通话片段,所述原始通话片段包括至少两个不同说话人的通话片段;

采用静音检测去除所述原始通话片段中的静音片段,得到第一通话片段;

将所述第一通话片段进行切割,得到至少三个第二通话片段,其中,一个所述说话人对应一个或多个所述第二通话片段;

获取每个所述第二通话片段的i-vector特征,采用预先训练好的双协方差概率线性判别分析模型对每个所述i-vector特征进行建模,得到每个所述第二通话片段的目标模型;

基于所述目标模型,采用变分贝叶斯算法确定相同的说话人的第二通话片段,并将所述相同的说话人的所述第二通话片段标记成统一的标签。

2.根据权利要求1所述的方法,其特征在于,所述将所述第一通话片段进行切割,得到至少三个第二通话片段,包括:基于贝叶斯信息准则和似然比,在所述第一通话片段中检测并得到说话人的转变点;

根据所述说话人的转变点将所述第一通话片段进行切割,得到至少三个所述第二通话片段。

3.根据权利要求1所述的方法,其特征在于,所述目标模型的表达式φm=yk+∈m,其中,φm表示第m个所述第二通话片段提取的i-vector特征,y表示所述第二通话片段的与说话人关联向量,k为使imk=1的索引,im表示与所述第二通话片段的指示向量,表示第m个所述第二通话片段的说话人无关向量∈服从均值为0,协方差为L-1的高斯分布,所述基于所述目标模型,采用变分贝叶斯算法确定相同的说话人的第二通话片段,包括:基于所述目标模型和所述变分贝叶斯算法获取第二通话片段的后验概率的表达式,其中,m表示所述第二通话片段,M表示所述第二通话片段的片段总数,s表示说话人,S表示所述说话人的总数,qms是s在所述第二通话片段m中说话的后验概率,ims为所述说话人s在所述第二通话片段m中的指示向量,当所述说话人s在所述第二通话片段m中说话时,ims=1,当所述说话人s在所述第二通话片段m中没有说话时,ims=0;

基于所述目标模型和所述变分贝叶斯算法获取说话人的后验概率的表达式,其中,s表示说话人,S表示所述说话人的总数,ys表示每个所述说话人s的所述第二通话片段,Q(Y)服从均值是μs,协方差为 的高斯分布;

基于变分贝叶斯算法对所述第二通话片段的后验概率Q(I)和所述说话人的后验概率Q(Y)进行更新;

根据更新后的Q(I)和更新后的Q(Y)确定相同的说话人的所述第二通话片段。

4.根据权利要求3所述的方法,其特征在于,在所述采用变分贝叶斯算法在所述目标模型中确定相同的说话人的第二通话片段之前,还包括:初始化所述第二通话片段的后验概率中说话人的个数,将所述第二通话片段的后验概率中每个不同的说话人作为一对;

计算每一对所述说话人之间的距离,得到距离最远的两个所述说话人;

重复预设次数的初始化所述第二通话片段的后验概率中说话人的个数,将所述第二通话片段的后验概率中每个不同的说话人作为一对和计算每一对所述说话人之间的距离,得到距离最远的两个所述说话人的步骤,得到在所述预设次数的步骤中距离最远的两个所述说话人,并将在所述预设次数的步骤中距离最远的两个所述说话人作为变分贝叶斯计算的起点。

5.根据权利要求3或4任一项所述的方法,其特征在于,所述采用变分贝叶斯算法对所述第二通话片段的后验概率Q(I)和所述说话人的后验概率Q(Y)进行更新,包括:将所述第二通话片段的后验概率Q(I)中的qms更新为 其中,s′用于区分qms中的s,表示更

新前的s, 中的T表示转置矩阵运算,L为协方差L-1的逆,tr(.)表示矩阵的迹运算,const表示与说话人的无关 项;所述说话人的 后验 概率Q(Y)的更新表 示为-1

Λ为协方差Λ 的逆,

是说话人后验概率的协方差,Cs是协方差的逆。

6.一种通话分离装置,其特征在于,所述装置包括:

原始通话片段获取模块,用于获取原始通话片段,所述原始通话片段包括至少两个不同说话人的通话片段;

第一通话片段获取模块,用于采用静音检测去除所述原始通话片段中的静音片段,得到第一通话片段;

第二通话片段获取模块,用于将所述第一通话片段进行切割,得到至少三个第二通话片段,其中,一个所述说话人对应一个或多个所述第二通话片段;

目标模型获取模块,用于获取每个所述第二通话片段的i-vector特征,采用预先训练好的双协方差概率线性判别分析模型对每个所述i-vector特征进行建模,得到每个所述第二通话片段的目标模型;

统一标签模块,用于基于所述目标模型,采用变分贝叶斯算法确定相同的说话人的第二通话片段,并将所述相同的说话人的所述第二通话片段标记成统一的标签。

7.根据权利要求6所述的装置,其特征在于,所述第一通话片段获取模块,包括:转变点获取单元,用于基于贝叶斯信息准则和似然比,在所述第一通话片段中检测并得到说话人的转变点;

第二通话片段获取单元,用于根据所述说话人的转变点将所述第一通话片段进行切割,得到至少三个所述第二通话片段。

8.根据权利要求6所述的装置,其特征在于,所述目标模型的表达式φm=yk+∈m,其中,φm表示第m个所述第二通话片段提取的i-vector特征,y表示所述第二通话片段的与说话人关联向量,k为使imk=1的索引,im表示与所述第二通话片段的指示向量,表示第m个所述第二通话片段的说话人无关向量∈服从均值为0,协方差为L-1的高斯分布,所述统一标签模块,包括:第二通话片段后验概率获取单元,用于基于所述目标模型和所述变分贝叶斯算法获取第二通话片段的后验概率的表达式, 其中,m表示所述第二通话片段,M表示所述第二通话片段的片段总数,s表示说话人,S表示所述说话人的总数,qms是s在所述第二通话片段m中说话的后验概率,ims为所述说话人s在所述第二通话片段m中的指示向量,当所述说话人s在所述第二通话片段m中说话时,ims=1,当所述说话人s在所述第二通话片段m中没有说话时,ims=0;

说话人后验概率获取单元,用于基于所述目标模型和所述变分贝叶斯算法获取说话人的后验概率的表达式, 其中,s表示说话人,S表示所述说话人的总数,ys表示每个所述说话人s的所述第二通话片段,Q(Y)服从均值是μs,协方差为的高斯分布;

更新单元,用于基于变分贝叶斯算法对所述第二通话片段的后验概率Q(I)和所述说话人的后验概率Q(Y)进行更新;

确定单元,用于根据更新后的Q(I)和更新后的Q(Y)确定相同的说话人的所述第二通话片段。

9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至

5任一项所述通话分离方法的步骤。

10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述通话分离方法的步骤。