1.基于语音语料对齐与自适应融合的语音分类方法,其特征在于,执行如下步骤S1‑步骤S5,完成语音数据分类:步骤S1:获取原始语音数据,将原始语音数据以预设比例划分训练集和测试集;
步骤S2:构建基于语音语料对齐与自适应融合的语音分类网络模型,语音分类网络模型包括对齐构造模块、语音关联性构建模块、片段重要性挖掘模块、融合检测模块;
以原始语音数据输入对齐构造模块,对原始语音数据进行语音片段分离,分别从所得语音片段和原始语音数据中提取深层特征;利用语音关联性构建模块捕捉语音片段间的相互联系,获得关联性特征;利用片段重要性挖掘模块基于所得关联性特征进行语料重要性自适应学习,获取各语音片段的重要性系数;在融合检测模块中根据重要性系数对特征进行组合,形成总和嵌入特征;并输入分类器以获得预测的语音数据分类结果;
步骤S3:设计用于优化语音分类网络模型的损失函数,预设语音分类网络模型的训练超参数;
步骤S4:将训练集中的原始语音数据送入语音分类网络模型中,根据损失函数,采用Adam优化器实现语音分类网络模型参数的迭代优化与更新;
步骤S5:对语音分类网络模型进行训练和测试,直至语音分类网络模型达到预设收敛条件,采用训练好的语音分类网络模型实现端对端的语音数据分类。
2.根据权利要求1所述的基于语音语料对齐与自适应融合的语音分类方法,其特征在于,步骤S1中将原始语音数据按照其差异性特征分为多个类别;然后将各类别的原始语音数据按照0.9:0.1的比例划分训练集和测试集。
3.根据权利要求1所述的基于语音语料对齐与自适应融合的语音分类方法,其特征在于,步骤S2的具体步骤如下:步骤S2.1:对齐构造模块中,使用语音对齐工具获取原始语音数据中各字词的时间戳,并依照时间戳将原始语音数据划分为N个语音片段;使用预训练的wav2vec2.0特征提取器对完整的原始语音数据和各语音片段进行特征提取,得到原始语音数据的特征向量 和各语音片段的特征向量 ,其中L2表示语音片段特征长度,L1表示全局特征长度,C为特征向量通道数;为N个语音片段分别设立N个独立的Transformer编码器,捕获语音片段内部的深层特征 ;
步骤S2.2:语音关联性构建模块中,采用注意力机制分别对各个语音片段进行信息融合,得到语音片段交互特征 ,计算公式如下:;
其中, 表示拼接操作, 为可学习参数, 表示多头注意力,对于语音片段i,将其深层特征 作为查询Q,其余语音片段j的深层特征拼接所得结果作为键K和值V;
对全局深层特征 和各语音片段的片段交互特征 分别使用交叉注意力,计算公式如下:
;
其中, 表示双向交叉注意力, 为可学习参数; 为语音片段i的关联性特征, 为全局关联性特征;
步骤S2.3:将语音片段的关联性特征与全局关联性特征输入片段重要性挖掘模块,计算公式如下:;
;
其中, 和 为可学习参数矩阵,C为特征向量通道数,表示语音片段的重要性分数矩阵,L2表示语音片段特征长度,L1表示全局特征长度;
表示语音片段重要性信息, 为其第u个元素;
对以语音片段重要性信息H为输入的全连接层所输出的N维向量进行TopK操作,得到重要性系数G,计算公式如下:;
式中, 表示与N个语音片段相对应的重要性系数,其中仅有K个重要性系数不为零,其余N‑K个重要性系数均为零; 表示全连接层, 为可学习参数;
步骤S2.4:融合检测模块中,对各语音片段的关联性特征 进行平均池化,得到 ,并将重要性系数进行加权相加,计算公式如下:;
其中, 表示语音片段融合后的总和嵌入特征,将全局关联性特征 进行平均池化得到 ,并将其与 拼接后送入分类器得到预测结果:;
其中, 表示全连接层, 为可学习参数;prediction为预测的语音数据分类结果。
4.根据权利要求1所述的基于语音语料对齐与自适应融合的语音分类方法,其特征在于,步骤S3中的损失函数包括片段重要性均衡损失和带权交叉熵损失,其中片段重要性均衡损失 的计算公式如下:;
;
;
其中, 表示一个训练批次中第j个语音数据的第i个语音片段对应的重要性系数,表示一个训练批次中各语音数据第i个语音片段的重要性系数之和, 为中间变量,N为语音片段数量;
带权交叉熵损失 的计算公式如下:
;
其中,ωc是第c类语音数据的权重,为超参数;M为语音数据类别的数量;yc为第c类语音数据的标签;pc为语音分类网络模型预测当前语音数据为第c类的概率;
总损失函数为: , 为重要性均衡损失的系
数,是超参数,语音分类网络模型的其余训练超参数包括模型学习率、迭代次数epoch,语音分类网络模型的层数。
5.根据权利要求1所述的基于语音语料对齐与自适应融合的语音分类方法,其特征在于,步骤S4的具体步骤如下:步骤S4.1:对语音分类网络模型中的特征提取器采用预训练好的参数,其余参数进行初始化;选取训练集中S个原始语音数据 送入到语音分类网络模型中,并得到相应的输出向量 ;
步骤S4.2:通过反向传播算法,更新其余参数, ,其中,Adam表示Adam优化器,为梯度下降算法中的一种;ω为未被冻结的参数;α为学习率;dω为梯度;
步骤S4.3:对整个训练集的所有原始语音数据,依次进行步骤S4.1和步骤S4.2操作,共进行50次迭代。
6.根据权利要求1所述的基于语音语料对齐与自适应融合的语音分类方法,其特征在于,步骤S5的具体步骤如下:步骤S5.1:将原始语音数据输入到语音分类网络模型中,计算损失函数值;
步骤S5.2:若损失函数值减小至预设值,则判定语音分类网络模型收敛;进行步骤S5.3,否则返回执行步骤S4;
步骤S5.3:将待分类语音数据输入到已收敛的语音分类网络模型中,输出语音数据的分类结果。