买专利、卖专利、专利购买、专利交易、专利出售、高企申报-基于语音语料对齐与自适应融合的语音分类方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

基于语音语料对齐与自适应融合的语音分类方法

￥31200

专利号： 2024110605127

申请人：南京信息工程大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-06-16

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.基于语音语料对齐与自适应融合的语音分类方法，其特征在于，执行如下步骤S1‑步骤S5，完成语音数据分类：步骤S1：获取原始语音数据，将原始语音数据以预设比例划分训练集和测试集；

步骤S2：构建基于语音语料对齐与自适应融合的语音分类网络模型，语音分类网络模型包括对齐构造模块、语音关联性构建模块、片段重要性挖掘模块、融合检测模块；

以原始语音数据输入对齐构造模块，对原始语音数据进行语音片段分离，分别从所得语音片段和原始语音数据中提取深层特征；利用语音关联性构建模块捕捉语音片段间的相互联系，获得关联性特征；利用片段重要性挖掘模块基于所得关联性特征进行语料重要性自适应学习，获取各语音片段的重要性系数；在融合检测模块中根据重要性系数对特征进行组合，形成总和嵌入特征；并输入分类器以获得预测的语音数据分类结果；

步骤S3：设计用于优化语音分类网络模型的损失函数，预设语音分类网络模型的训练超参数；

步骤S4：将训练集中的原始语音数据送入语音分类网络模型中，根据损失函数，采用Adam优化器实现语音分类网络模型参数的迭代优化与更新；

步骤S5：对语音分类网络模型进行训练和测试，直至语音分类网络模型达到预设收敛条件，采用训练好的语音分类网络模型实现端对端的语音数据分类。

2.根据权利要求1所述的基于语音语料对齐与自适应融合的语音分类方法，其特征在于，步骤S1中将原始语音数据按照其差异性特征分为多个类别；然后将各类别的原始语音数据按照0.9：0.1的比例划分训练集和测试集。

3.根据权利要求1所述的基于语音语料对齐与自适应融合的语音分类方法，其特征在于，步骤S2的具体步骤如下：步骤S2.1：对齐构造模块中，使用语音对齐工具获取原始语音数据中各字词的时间戳，并依照时间戳将原始语音数据划分为N个语音片段；使用预训练的wav2vec2.0特征提取器对完整的原始语音数据和各语音片段进行特征提取，得到原始语音数据的特征向量和各语音片段的特征向量，其中L2表示语音片段特征长度，L1表示全局特征长度，C为特征向量通道数；为N个语音片段分别设立N个独立的Transformer编码器，捕获语音片段内部的深层特征；

步骤S2.2：语音关联性构建模块中，采用注意力机制分别对各个语音片段进行信息融合，得到语音片段交互特征，计算公式如下：；

其中，表示拼接操作，为可学习参数，表示多头注意力，对于语音片段i，将其深层特征作为查询Q，其余语音片段j的深层特征拼接所得结果作为键K和值V；

对全局深层特征和各语音片段的片段交互特征分别使用交叉注意力，计算公式如下：

；

其中，表示双向交叉注意力，为可学习参数；为语音片段i的关联性特征，为全局关联性特征；

步骤S2.3：将语音片段的关联性特征与全局关联性特征输入片段重要性挖掘模块，计算公式如下：；

；

其中，和为可学习参数矩阵，C为特征向量通道数，表示语音片段的重要性分数矩阵，L2表示语音片段特征长度，L1表示全局特征长度；

表示语音片段重要性信息，为其第u个元素；

对以语音片段重要性信息H为输入的全连接层所输出的N维向量进行TopK操作，得到重要性系数G，计算公式如下：；

式中，表示与N个语音片段相对应的重要性系数，其中仅有K个重要性系数不为零，其余N‑K个重要性系数均为零；表示全连接层，为可学习参数；

步骤S2.4：融合检测模块中，对各语音片段的关联性特征进行平均池化，得到，并将重要性系数进行加权相加，计算公式如下：；