利索能及
我要发布
收藏
专利号: 2021112459780
申请人: 合肥工业大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-30
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于深度学习的语音会话分割方法,其特征是按如下步骤进行:步骤1、获取会话语音集合W={(w1,y1),(w2,y2),…,(wm′,ym′),…,(wM′,yM′)},其中,wm′T表示第m′条会话语音,并有:wm′=(wm′,T,wm′,2T,…,wm′,nT,…,wm′,t/T) ,wm′,nT表示第m′条会话语音wm′中在n×T时刻的信号强度,t表示第m′条语音会话wm′的时间长度,T表示采样周期;

ym′表示第m′条语音会话的会话者的唯一身份标签,并对ym′进行one‑hot向量表示,得到向量化后的第m′个身份标签向量,记为 其中, 表示第m′个样本对应身份标签向量的第i维的值,K为会话语音集合W中会话者的人数;M′表示会话语音的数量;

步骤2、分帧和短时加窗处理:

将帧长度设置为T1,从而采用交叠分段的方法对会话语音集合W中的M′条会话语音{w1,w2,...,wM′}进行分帧处理,得到M个语音帧,再以汉明窗作为窗函数对M个语音帧进行滑动处理,得到加窗处理后的语音帧集合F={(f1,y1),(f2,y2),…,(fm,ym),…,(fM,yM)},fm表示第m个加窗后的语音帧,并有: 其中,fm,iT表示第m个加窗后的语音帧fm在i×T时刻的信号强度;ym表示第m个加窗后的语音帧fm所对应的会话者标签;

步骤3、筛除静音段:

利用式(1)计算所述语音帧集合F中第m个加窗后的语音帧fm的能量E(fm):设EM为静音帧的阈值,将能量E(fm)与阈值EM进行比较,并筛除能量E(fm)小于EM的语音帧,从而得筛选后的语音帧集合Fvoice={(f′1,y′1),(f′2,y′2),…,(f′n,y′n),…,(f′N,y′N)},其中,f′n表示筛选后的第n条语音帧,y′n为筛选后的第n条语音帧f′n所对应的会话者标签;N为语音帧集合Fvoice中的语音帧条数;

步骤4、语音信号的显式特征提取:

步骤4.1、对所述语音帧集合Fvoice中的语音帧进行快速傅立叶变换,得到各帧的频谱;

再对各帧的频谱取模的平方得到N个功率谱,由每个功率谱所对应的灰度图构成灰度图集合,记为G={(g1,y′1),(g2,y′2),…,(gn,y′n),…,(gN,y′N)},其中,gn表示第n个功率谱所对应的灰度图,并以二维矩阵来表示;

步骤4.2、将灰度图集合G划分为包含N1个样本的训练集Gtrain和N2个样本的测试集Gtest,且Gtrain和Gtest中的会话者人数均为K;

步骤4.3、提取MFCC特征:

将测试集Gtest中N2个样本对应的功率谱通过一组包含B个梅尔尺度的三角滤波器组后,得到B个三角滤波器的频率响应值{H(c)|c=1,2,...,B},其中,H(c)表示第c个三角滤波器的频率响应,再计算B个三角滤波器组输出的对数能量{s(c)|c=1,2,...,B};其中,s(c)表示第c个三角滤波器输出的对数能量;将对数能量{s(c)|c=1,2,...,B}进行离散余弦变换,得到N2个U维MFCC特征向量,记为 其中, 表示

第n2个样本MFCC特征向量;

步骤5、语音信号的隐式特征提取:

步骤5.1、构建隐式特征提取模型;

所述隐式特征提取模型是由三个分支所组成的基于注意力机制的语音特征提取网络,记作AFNet;其中,三个分支分别为特征提取分支、注意力机制分支、金字塔池化分支;

步骤5.1.1、所述特征提取分支为ResNet‑18模型;所述ResNet‑18模型包括:一个卷积核大小为k1×k1的卷积层,一个尺度为k2×k2的最大池化层,四组残差模块和一个全连接层,每组残差模块内有两个标准残差块结构;其中,所述全连接层的神经元个数为I;记特征提取分支输出的预测向量是epred;

步骤5.1.2、所述注意力机制分支由空洞空间金字塔池化模块、一个平均池化层,一个全连接层组成;并将所述特征提取分支中第三组残差模块输出的特征图作为注意力机制分支中的空洞空间金字塔池化模块的输入;

所述空洞空间金字塔池化模块由五个分支所组成的,其中,第一个分支包含三个卷积核大小分别为3k3×3k3、2k3×2k3、k3×k3的卷积层,并输出第一向量econv1;第二个分支包含3个级联的卷积核为k3×k3的空洞卷积层,其扩张率分别是s1、2s1、s1,并输出第二向量econv2;

第三个分支包含3个级联的卷积核为k3×k3的空洞卷积层,其扩张率分别是s2、2s2、s2,并输出第三向量econv3;第四个分支包含3个级联的卷积核为k3×k3的空洞卷积层,其扩张率分别是s3、2s3、s3,并输出第四向量econv4;第五个分支包含3个级联的卷积核为k3×k3的空洞卷积层,扩张率分别是s4、2s4、s4,并输出第五向量econv5;将输出的五个向量econv1,econv2,econv3,econv4,econv5进行通道上的串联操作得到第六向量econv6,所述第六向量econv6经过平均池化层的全局平均池化操作后得到池化向量epool,所述池化向量epool经过一层全连接层的处理后输出注意力分支的预测向量eatt;

步骤5.1.3、所述金字塔池化分支由五层构成,每层池化尺度为s5×s5、s6×s6、s7×s7、s8×s8、s9×s9;将所述特征提取分支中第一组残差模块输出的特征图ep0分别作为金字塔池化分支的五层输入,其中,特征向量ep0经过的第v层池化层后输出向量ev,再对向量ev进行卷积核为1×1卷积操作得到卷积向量econ_v,再对卷积向量econ_v进行双线性插值上采样得到特征向量ebranch_v,由五层得到的特征向量分别为ebranch_1,ebranch_2,ebranch_3,ebranch_4,ebranch_5;将特征向量ep0和五层分别输出的特征向量ebranch_1,ebranch_2,ebranch_3,ebranch_4,ebranch_5按通道数维度进行concat操作,得到金字塔池化分支的预测向量eppm,最后将三个预测向量epred,eatt,eppm按通道数维度进行concat操作后,得到I维预测向量epredict,并作为所述隐式特征提取模型的输出;

步骤5.2、网络训练:

基于所述测试集Gtest,使用随机梯度下降法最小化如式(2)所示的交叉熵损失函数以优化所述隐式特征提取模型的权重,从而训练所述隐式特征提取模型直到收敛为止;

式(2)中, 表示测试集Gtest中第n2个样本, 表示第n2个样本 对应身份标签向量的第b维的值, 表示第n2个样本 经过隐式特征提取模型处理得到的I维预测向量的第b维的值;

步骤5.3、隐式特征提取;

将测试集Gtest中N2个样本输入训练好的隐式特征提取模型中,并经过特征提取分支的全连接层后输出I维隐式特征向量集合 其中,

表示第n2个样本 经过特征提取分支的全连接层后得到的I维隐式特征向量;

步骤6.κ‑means聚类:

步骤6.1、构造特征向量:

由I维隐式特征向量集合FeatureAFNet和MFCC特征向量FeatureMFCC构成N2个U+I维的特征向量集合 其中, 表示第n2个样本 的特征向量,且步骤6.2、初始化d=1;从特征向量集合Feature中随机选择k个样本m1,m2,...,mr,...,mk作为第d次迭代的聚类中心;

步骤6.2.1、初始化k个聚类S={S1,S2,...,Sr,...,Sk}并作为第d次迭代的k个聚类步骤6.2.2、利用式(3)将特征向量集合Feature中的特征向量分配到第d次迭代的k个聚类 中,Sr表示第r个聚类:

式(3)中, 表示在第d次迭代中第r个聚类, 表示在第d次迭代中第r个聚类中心;

步骤6.2.3、利用式(4)对第d次迭代中第r个聚类中心进行更新,得到在第d+1次迭代中第r个聚类中心,从而得到第d+1次迭代的聚类中心

步骤6.2.4、将d+1赋值给d后,返回步骤6.2.2顺序执行,直到收敛,从而得到k个聚类,用于对会话语音集合W进行分割。