利索能及
我要发布
收藏
专利号: 2020114534461
申请人: 平安科技(深圳)有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种模型训练方法,其特征在于,包括:

获取多个第一训练样本和多个第二训练样本,所述第一训练样本包括第一语音序列和标注的所述第一语音序列对应的第一文本,所述第二训练样本包括第二语音序列;

根据所述多个第一训练样本,对第一预设语音识别模型进行迭代训练,得到第一语音识别模型;

将所述第一语音识别模型与预设语言模型进行融合,得到第二语音识别模型;

将多个所述第二语音序列输入至所述第二语音识别模型,得到每个所述第二语音序列对应的第二文本和融合分数;

根据预设分数阈值和每个所述第二语音序列的融合分数,对多个所述第二语音序列进行过滤,得到多个候选语音序列;

根据所述多个第一训练样本的概率分布信息,从所述多个候选语音序列中筛选出目标语音序列;

根据每个所述目标语音序列、每个所述目标语音序列对应的第二文本和多个所述第一训练样本,对第二预设语音识别模型进行迭代训练,得到目标语音识别模型。

2.如权利要求1所述的模型训练方法,其特征在于,所述根据所述多个第一训练样本的概率分布信息,从所述多个候选语音序列中筛选出目标语音序列,包括:根据所述多个候选语音序列,生成多个语音序列集,其中,每个所述语音序列集包括至少一个所述候选语音序列;

确定每个所述语音序列集的概率分布信息;

根据所述多个第一训练样本的概率分布信息和每个所述语音序列集的概率分布信息,从多个所述语音序列集中选取目标语音序列集。

3.如权利要求2所述的模型训练方法,其特征在于,所述根据所述多个第一训练样本的概率分布信息和每个所述语音序列集的概率分布信息,从多个所述语音序列集中选取目标语音序列集,包括:根据所述多个第一训练样本的概率分布信息和每个所述语音序列集的概率分布信息,计算每个所述语音序列集的K‑L散度;

根据每个所述语音序列集的K‑L散度,从多个所述语音序列集中选取目标语音序列集。

4.如权利要求1‑3中任一项所述的模型训练方法,其特征在于,所述根据所述多个第一训练样本,对第一预设语音识别模型进行迭代训练,得到第一语音识别模型,包括:对多个所述第一训练样本进行数据增强;

根据经过数据增强后的多个所述第一训练样本,对第一预设语音识别模型进行迭代训练,直至所述第一预设语音识别模型收敛,得到第一语音识别模型。

5.如权利要求1‑3中任一项所述的模型训练方法,其特征在于,所述根据每个所述目标语音序列、每个所述目标语音序列对应的第二文本和多个所述第一训练样本,对所述第二预设语音识别模型进行迭代训练,得到目标语音识别模型,包括:根据每个所述目标语音序列和每个所述目标语音序列对应的第二文本,生成多个第三训练样本;

根据所述多个第三训练样本和所述多个第一训练样本,得到训练样本集;

通过所述训练样本集,对所述第二预设语音识别模型进行迭代训练,直至达到预设条件,得到目标语音识别模型。

6.一种语音识别方法,其特征在于,包括:

获取待识别的语音序列;

通过目标语音识别模型对所述语音序列进行语音识别,得到所述语音序列对应的文本信息;

所述目标语音识别模型是根据权利要求1至5任一项所述的模型训练方法进行训练得到的。

7.一种模型训练装置,其特征在于,所述模型训练装置包括:获取模块,用于获取多个第一训练样本和多个第二训练样本,所述第一训练样本包括第一语音序列和标注的所述第一语音序列对应的第一文本,所述第二训练样本包括第二语音序列;

第一训练模块,用于根据所述多个第一训练样本,对第一预设语音识别模型进行迭代训练,得到第一语音识别模型;

融合模块,用于将所述第一语音识别模型与预设语言模型进行融合,得到第二语音识别模型;

输入模块,用于将多个所述第二语音序列输入至所述第二语音识别模型,得到每个所述第二语音序列对应的第二文本和融合分数;

筛选模块,用于根据预设分数阈值和每个所述第二语音序列的融合分数,对多个所述第二语音序列进行过滤,得到多个候选语音序列;根据所述多个第一训练样本的概率分布信息,从所述多个候选语音序列中筛选出目标语音序列;

第二训练模块,用于根据每个所述目标语音序列、每个所述目标语音序列对应的第二文本和多个所述第一训练样本,对第二预设语音识别模型进行迭代训练,得到目标语音识别模型。

8.一种计算机设备,其特征在于,所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如权利要求1至5中任一项所述的模型训练方法,或者实现如权利要求6所述的语音识别方法的步骤。

9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现如权利要求1至5中任一项所述的模型训练方法,或者实现如权利要求6所述的语音识别方法的步骤。