利索能及
我要发布
收藏
专利号: 2021108352776
申请人: 平安科技(深圳)有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种多人对话语音实时翻译方法,其特征在于,包括下述步骤:接收待翻译的对话语音,所述对话语音包含N个人声,N为大于1的整数;

将所述对话语音输入到预设的语音分离模型进行语音分离,得到N个子音频;

将所述子音频通过ASR算法进行语音识别,得到所述子音频对应的文本;

将所述子音频对应的文本输入到预设的翻译引擎进行翻译,得到所述子音频对应的目标语言翻译结果。

2.根据权利要求1所述的多人对话语音实时翻译方法,其特征在于,所述将所述对话语音输入到预设的语音分离模型进行语音分离,得到N个子音频的步骤之前还包括:获取训练样本,所述训练样本为混合了N个人声真实音频的对话语音;

将所述训练样本输入到预设的卷积神经网络模型中,获得所述卷积神经网络模型响应所述训练样本预测的N个人声预测音频;

调整所述卷积神经网络模型各节点的参数,至所述N个人声预测音频与所述N个人声真实音频之间的信噪比达到最大值时结束,得到训练好的语音分离模型。

3.根据权利要求1所述的多人对话语音实时翻译方法,其特征在于,所述预设的翻译引擎为M个,且每个翻译引擎对应不同的目标语种,所述将所述子音频对应的文本输入到预设的翻译引擎进行翻译,得到所述子音频对应的目标语言翻译结果的步骤具体包括:获取所述子音频的翻译目标语种;

根据所述翻译目标语种匹配与所述翻译目标语种对应的翻译引擎;

将所述子音频对应的文本输入到所述翻译引擎中进行翻译,得到所述子音频对应的目标语言翻译结果。

4.根据权利要求1所述的多人对话语音实时翻译方法,其特征在于,当所述目标语言翻译结果为文本时,在所述将所述子音频对应的文本输入到预设的翻译引擎进行翻译,得到所述子音频对应的目标语言翻译结果的步骤之后,还包括:将所述目标语言翻译结果输入到预设的文字‑语音转换模型中进行语音转换,获得所述目标语言翻译结果的音频输出。

5.根据权利要求1所述的多人对话语音实时翻译方法,其特征在于,在所述将所述子音频通过ASR算法进行语音识别,得到所述子音频对应的文本的步骤之后还包括:将所述子音频对应的文本输入到预先训练的文本纠错模型中进行文本纠错,得到校正后的文本;

将所述校正后的文本输入到预设的翻译引擎进行翻译,得到所述子音频对应的目标语言翻译结果。

6.根据权利要求5所述的多人对话语音实时翻译方法,其特征在于,在所述将所述子音频对应的文本输入到预先训练的文本纠错模型中进行文本纠错,得到校正后的文本的步骤中,具体包括:

将所述子音频对应的文本进行分词,得到分词结果;

将所述分词结果根据预设的规则组成短文本;

计算所述短文本与预设的语料库中各文本的编辑距离;

用所述语料库中与所述短文本之间编辑距离最小的文本替换所述短文本,得到校正后的文本。

7.一种多人对话语音实时翻译装置,其特征在于,包括:接收模块,用于接收待翻译的对话语音,所述对话语音包含N个人声,N为大于1的整数;

分离模块,用于将所述对话语音输入到预设的语音分离模型进行语音分离,得到N个子音频;

识别模块,用于将所述子音频通过ASR算法进行语音识别,得到所述子音频对应的文本;

翻译模块,用于将所述子音频对应的文本输入到预设的翻译引擎进行翻译,得到所述子音频对应的目标语言翻译结果。

8.根据权利要求7所述的多人对话语音实时翻译装置,其特征在于,还包括:第一获取子模块,用于获取训练样本,所述训练样本为混合了N个人声真实音频的对话语音;

第一预测子模块,用于将所述训练样本输入到预设的卷积神经网络模型中,获得所述卷积神经网络模型响应所述训练样本预测的N个人声预测音频;

第一调整子模块,用于调整所述卷积神经网络模型各节点的参数,至所述N个人声预测音频与所述N个人声真实音频之间的信噪比达到最大值时结束,得到训练好的语音分离模型。

9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如权利要求1至6中任一项所述的多人对话语音实时翻译方法的步骤。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如权利要求1至6中任一项所述的多人对话语音实时翻译方法的步骤。