买专利、卖专利、专利购买、专利交易、专利出售、高企申报-多语种语音识别模型训练方法、装置、设备及存储介质

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

多语种语音识别模型训练方法、装置、设备及存储介质

面议

专利号： 2020107616912

申请人：平安科技(深圳)有限公司

专利类型：发明专利

专利状态：已下证

更新日期：2026-06-16

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种多语种语音识别模型训练方法，其特征在于，所述多语种语音识别模型训练方法包括：获取第一语种的语音数据，通过所述第一语种的语音数据对语音识别模型进行训练，得到初始语音识别模型，其中，所述初始语音识别模型包括若干个隐藏层；

搭建自适应网络函数，并将所述自适应网络函数分别嵌入到若干个所述隐藏层中，得到初始多语种语音识别模型；

获取第二语种的语音数据，通过所述第二语种的语音数据对所述初始多语种语音识别模型进行模型训练，得到训练结果；

判断所述训练结果是否在预设标准训练结果范围内，若所述训练结果不在所述预设标准结果范围内，则对所述初始多语种语音识别模型进行迭代更新，直到所述训练结果落入所述预设标准训练结果范围内为止，输出多语种语音识别模型。

2.如权利要求1所述的多语种语音识别模型训练方法，其特征在于，所述获取第一语种的语音数据，通过所述第一语种的语音数据对语音识别模型进行训练，得到初始语音识别模型，具体包括：对所述第一语种的语音数据进行特征提取，得到所述第一语种的语音特征；

对所述第一语种的语音特征进行向量特征转换，得到所述第一语种的语音特征向量；

对所述第一语种的语音特征向量进行加权计算，得到所述第一语种的语音特征权值；

对所述第一语种的语音特征权值进行发音音素概率计算，输出概率最大的识别结果；

基于所述识别结果与预设标准识别结果，使用反向传播算法进行拟合，获取预测误差；

将所述预测误差与预设的预测阈值进行比较，若所述预测误差大于所述预测阈值，则对所述语音识别模型进行迭代更新，直到所述预测误差小于或等于所述预测阈值为止，输出初始语音识别模型。

3.如权利要求2所述的多语种语音识别模型训练方法，其特征在于，所述对所述第一语种的语音特征向量进行加权计算，得到所述第一语种的语音特征权值，具体包括：将所述第一语种的语音特征向量输入到预先设置好的卷积核中进行卷积运算，得到初始矩阵；

对所述初始矩阵进行注意力矩阵运算，得到权重矩阵；

通过所述权重矩阵对所述第一语种的语音特征向量进行加权计算，得到所述第一语种的语音特征权值。

4.如权利要求1所述的多语种语音识别模型训练方法，其特征在于，通过以下公式搭建所述自适应网络函数：其中，为自适应网络函数，max(0,x)为自适应网络函数中的共同特征，为自适应网络函数中的差异特征，为自适应激活参数，bi为共享的网络参数，G为特征权值。

5.如权利要求1至4任意一项所述的多语种语音识别模型训练方法，其特征在于，获取第二语种的语音数据，通过所述第二语种的语音数据对所述初始多语种语音识别模型进行模型训练，得到训练结果，具体包括：对所述第二语种的语音数据进行特征提取，得到所述第二语种的语音特征；

从所述初始多语种语音识别模型的数据库中获取所述第一语种的语音特征；

通过所述自适应网络函数对所述第一语种的语音特征和所述第二语种的语音特征进行特征识别，得到共同特征和差异特征；

通过所述共同特征和所述差异特征对所述初始多语种语音识别模型进行模型训练，输出训练结果。

6.如权利要求5所述的多语种语音识别模型训练方法，其特征在于，所述分别通过所述共同特征和所述差异特征对所述初始多语种语音识别模型进行模型训练，输出训练结果，具体包括：对所述差异特征进行向量特征转换，得到差异特征向量；

对所述差异特征向量进行加权计算，得到差异特征权值；

对所述差异特征权值进行发音音素概率计算，输出差异特征的识别结果；

从所述初始多语种语音识别模型的数据库中获取所述共同特征的识别结果；

将所述共同特征的识别结果与所述差异特征的识别结果进行组合，形成训练结果。

7.如权利要求5所述的多语种语音识别模型训练方法，其特征在于，所述对所述初始多语种语音识别模型进行迭代更新，直到所述训练结果落入所述预设标准训练结果范围内为止，输出多语种语音识别模型，具体包括：通过反向传播算法对所述训练结果与所述预设标准训练结果进行拟合，获取训练误差；

将所述训练误差与预设的标准阈值进行比较；

若所述训练误差大于标准阈值，则对所述多语种语音识别模型进行迭代更新，直到所述训练误差小于或等于标准阈值为止，输出多语种语音识别模型。

8.一种多语种语音识别模型训练装置，其特征在于，包括：

第一训练模块，用于获取第一语种的语音数据，通过所述第一语种的语音数据对语音识别模型进行训练，得到初始语音识别模型，其中，所述初始语音识别模型包括若干个隐藏层；

函数搭建模块，用于搭建自适应网络函数，并将所述自适应网络函数分别嵌入到若干个所述隐藏层中，得到初始多语种语音识别模型；

第二训练模块，用于获取第二语种的语音数据，通过所述第二语种的语音数据对所述初始多语种语音识别模型进行模型训练，得到训练结果；

迭代更新模块，用于判断所述训练结果是否在预设标准训练结果范围内，若所述训练结果不在所述预设标准结果范围内，则对所述初始多语种语音识别模型进行迭代更新，直到所述训练结果落入所述预设标准训练结果范围内为止，输出多语种语音识别模型。

9.一种计算机设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的多语种语音识别模型训练方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的多语种语音识别模型训练方法的步骤。

推荐专利

模型训练方法、语音识别方法、装置、设备及存储介质

声纹模型训练方法、语音识别方法、装置、设备及介质

我要求购

您有专利需要变现?

我要出售

智能匹配需求，快速出售

摘要:

权利要求书:

利索能及

友情链接

关于我们

联系我们