利索能及
我要发布
收藏
专利号: 2023108961345
申请人: 山东科技大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-10-27
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于声学特征生成的身份特征提取方法,其特征在于,包括如下步骤:步骤1. 搭建包括生成模型以及身份特征提取模型的网络模型;

生成模型包括上下文编码器、时间步编码器以及解码器;

上下文编码器用于提取输入的上下文内容信息并输出上下文向量;时间步编码器用于提取输入中关于时间的信息并输出时间向量,编码器用于生成声学特征;

身份特征提取模型采用预训练好的身份特征提取模型;

其中,短音频在网络模型中的信号处理流程如下:短音频的第一声学特征首先经过生成模型的上下文编码器、时间步编码器分别提取得到第一声学特征的上下文向量以及时间向量;

解码器基于上下文向量以及时间向量生成第二声学特征;将短音频的第一声学特征以及解码器生成的第二声学特征进行拼接,得到拼接后的第三声学特征;

将拼接后的第三声学特征输入到预训练好的身份特征提取模型中,输出身份特征;

步骤2. 利用训练集对生成模型进行训练,优化生成模型的网络参数;

步骤3. 在使用时,首先将短音频的第一声学特征输入训练好的生成模型中得到第二声学特征,然后第一声学特征与第二声学特征拼接得到第三声学特征;

将拼接得到的第三声学特征输入到身份特征提取模型中,从而提取出身份特征。

2.根据权利要求1所述的基于声学特征生成的身份特征提取方法,其特征在于,所述上下文编码器包括一维卷积层、池化层以及线性层;

定义短音频的第一声学特征的通道数为C,帧数为T,输入数据的尺寸为C×T,则一维卷积层的输入通道数是C,输出通道数是1500,卷积核大小是1;

第一声学特征通过一维卷积层后输出尺寸为1500×T;

池化层使用均值和方差进行池化,在通道维度上求均值和方差,再将均值和方差拼接输出,池化层的输出变成维度为3000的向量;

最后通过一个线性层将数据维度变成512,线性层输出的上下文向量即为上下文编码器的输出,该上下文向量中包含声学特征的内容信息。

3.根据权利要求1所述的基于声学特征生成的身份特征提取方法,其特征在于,所述时间步编码器其包含单层双向GRU层以及线性层;

GRU层的输入维度是C,其隐藏层维度为512,将两个方向的隐藏层输出进行拼接,再输入线性层,最后输出512维的时间向量,该时间向量包含声学特征的时间信息。

4.根据权利要求1所述的基于声学特征生成的身份特征提取方法,其特征在于,解码器包括GRU层以及线性层;

GRU层是单层单向的,隐藏层维度是512;定义生成的声学特征的帧数为M帧,则需要进行M步计算,每步输出一帧数据,每帧数据都由GRU层和线性层计算得来;

第一步的GRU层输入由上下文编码器输出的上下文向量以及短音频的第一声学特征的最后一帧数据拼接而成,GRU的隐藏层输入为时间向量;

第二步至第M步的计算过程为:

当前步GRU层的输入均是由上下文编码器输出的上下文向量以及上一步生成的前一帧声学特征进行拼接得到,GRU的隐藏层输入为上一步的隐藏层输出;

各步中GRU计算完成后将GRU层输出、GRU隐藏层输入以及GRU层输入三者拼接后输入线性层,通过线性层输出一帧C个通道的声学特征;

经过M步计算得到M帧C个通道的声学特征,即第二声学特征。

5.根据权利要求1所述的基于声学特征生成的身份特征提取方法,其特征在于,所述步骤2中,生成模型训练的过程如下:假设一共有N条用于训练的语音,分别来自P个人,每个批次的训练过程如下:步骤2.1. 从训练集中随机选择p个人,每人n条语音,将每个语音提取声学特征,获得p×n个完整的声学特征;其中,p、P均为自然数,且 p小于P;

步骤2.2. 从步骤2.1中每一个完整的声学特征中随机截取连续的z帧的第一声学特征和和2z帧的第四声学特征,若帧长不够截取,则通过复制原数据的方式来满足帧长;

步骤2.3. 将z帧的第一声学特征输入生成模型中,输出z帧的第二声学特征,将z帧的第一声学特征与z帧的第二声学特征拼接成2z帧的第三声学特征;

步骤2.4. 将步骤2.2中截取的2z帧的第四声学特征输入预训练好的身份特征提取模i型FE(x, θ)中,输出第一身份特征向量el;将步骤2.3中得到的拼接的2z帧的第三声学特征i输入训练好的身份特征提取模型FE(x, θ)中,输出第二身份特征向量es;

i

步骤2.5. 从第二身份特征向量e s中为每一个身份特征找到与该身份特征欧氏距离最i小的属于不同人的身份特征,作为该身份特征的负样本esn;

i

从第二身份特征向量e s中为每一个身份特征找到与其欧式距离最大的属于同一人的i身份特征,作为该身份特征的正样本esp;

步骤2.6. 利用正样本和负样本以及余弦距离计算三元组损失losst,公式如下:;

利用第一身份特征向量和第二身份特征向量计算余弦距离损失lossc,公式如下:;

生成模型的损失函数为三元组损失losst与余弦距离损失lossc之和;

步骤2.7. 反向传播,更新生成模型的参数;

步骤2.8. 返回步骤2.1,直至生成模型收敛或者达到训练轮次。

6.一种计算机设备,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,其特征在于,所述处理器执行所述可执行代码时,实现如权利要求1至5任一项所述的基于声学特征生成的身份特征提取方法。

7.一种计算机可读存储介质,其上存储有程序,其特征在于,该程序被处理器执行时,实现如权利要求1至5任一项所述的基于声学特征生成的身份特征提取方法。