1.一种基于多语义空间的机器译文质量估计方法,分为机器译文质量估计模型训练和机器译文质量估计;其中机器译文质量估计模型训练,其特征在于:方法步骤如下:步骤S1,获取训练集,对训练集进行规范化处理,获得规范化处理后的训练集;
训练集由不同的多个样本组成,每个样本包括源语言句子、机器译文和机器译文的人类评价分值;
步骤S2,利用对话大语言模型生成伪参考译文和回译;
步骤S3,提取在源语言语义空间的机器译文质量特征;
步骤S4,提取在目标语言语义空间的机器译文质量特征;
步骤S5,提取在跨语言语义空间的机器译文质量特征;
步骤S6,提取多语义空间机器译文质量特征向量;
将步骤S3中在源语言语义空间的机器译文质量特征、步骤S4中在目标语言语义空间的机器译文质量特征和步骤S5中在跨语言语义空间的机器译文质量特征进行拼接,输入到多头自注意力网络层,获取多语义空间机器译文质量特征向量;
步骤S7,预测基于多语义空间的机器译文质量得分;
将步骤S6中多语义空间机器译文质量特征向量输入到前馈神经网络层,预测基于多语义空间的机器译文质量得分;
步骤S8,训练基于多语义空间的机器译文质量估计模型;
根据步骤S7中预测的基于多语义空间的机器译文质量得分和步骤S1中规范化处理后的训练集内机器译文的人类评价分值,通过最小化在训练集上的均方差损失来优化基于多语义空间的机器译文质量估计模型的参数,得到训练后的基于多语义空间的机器译文质量估计模型。
2.根据权利要求1所述的一种基于多语义空间的机器译文质量估计方法,其特征在于:步骤S1中训练集由不同的多个样本组成,每个样本具体为:给定训练集中一个样本d={src, mt, y},其中d表示一个训练样本,src表示源语言句子, mt表示机器译文, y表示机器译文mt的人类评价分值。
3.根据权利要求2所述的一种基于多语义空间的机器译文质量估计方法,其特征在于:步骤S2中利用对话大语言模型生成伪参考译文和回译,具体为:步骤S21,使用翻译提示将规范化处理后的训练集内每个样本中源语言句子输入到对话大语言模型,使源语言句子生成对应目标语言的翻译;
(1);
其中,pref表示对话大语言模型生成的源语言句子的目标语言的翻译,LLM( )表示对话大语言模型输出函数,promptpref 表示正向翻译提示,src表示源语言句子;
步骤S22,将源语言句子的目标语言的翻译pref作为机器译文的伪参考译文;
步骤S23,使用翻译提示将规范化处理后的训练集内每个样本中机器译文输入到对话大语言模型,使机器译文生成对应源语言的翻译;
(2);
其中,bt表示对话大语言模型生成的机器译文的源语言的翻译,mt表示机器译文;
步骤S24,将机器译文的源语言的翻译bt作为源语言句子的回译。
4.根据权利要求3所述的一种基于多语义空间的机器译文质量估计方法,其特征在于:步骤S3中提取在源语言语义空间的机器译文质量特征;具体为:步骤S31,将规范化处理后的训练集内每个样本中源语言句子和回译拼接成源语言句对序列;
(3);
其中,Xsrc_bt表示源语言句对序列,符号“[s]”表示源语言句对序列的起始符,符号“[sep]”表示句子间的分隔符,符号“[/s]”表示源语言句对序列的结束符;
步骤S32,将源语言句对序列输入到跨语言预训练模型X‑MOD中,提取在源语言语义空间统一表征;
(4);
(5);
其中,Hsrc_bt表示跨语言预训练模型X‑MOD生成的源语言句对序列的子词级表征,X‑MOD( )表示跨语言预训练模型X‑MOD输出函数,hsrc_bt表示在源语言语义空间统一表征,即源语言句对序列的子词级表征的起始符“[s]”的表征,符号“[0]”表示取表征数组的第一个元素操作;
步骤S33,将规范化处理后的训练集内每个样本中源语言句子和回译分别独立输入到跨语言预训练模型X‑MOD中,提取源语言句子子词级表征和回译子词级表征;
(6);
(7);
其中,Hsrc表示源语言句子子词级表征,Hbt表示回译子词级表征;
步骤S34,通过平均池化和交互推理增强获得在源语言语义空间独立增强表征;
(8);
(9);
(10);
其中,hsrc表示源语言句子整体表征,hbt表示回译整体表征,vsrc_bt表示在源语言语义空间独立增强表征;AvgPool( )表示平均池化函数, “⊕”为向量拼接操作,用于融合多方面表征信息,符号“‑”为向量间的减法操作,用于捕捉句对间的差异特征,符号“| |”表示向量逐元素取绝对值操作,“ ”为向量逐元素相乘操作,用于获取向量的交互特征;
步骤S35,将在源语言语义空间统一表征和在源语言语义空间独立增强表征拼接,获取在源语言语义空间的机器译文质量特征;
(11);
其中,esrc_bt表示在源语言语义空间的机器译文质量特征。
5.根据权利要求4所述的一种基于多语义空间的机器译文质量估计方法,其特征在于:步骤S4中提取在目标语言语义空间的机器译文质量特征,具体为:步骤S41,将规范化处理后的训练集内每个样本中机器译文和伪参考译文拼接成目标语言句对序列: (12);
其中,Xmt_pref表示目标语言句对序列;
步骤S42,将目标语言句对序列输入到跨语言预训练模型X‑MOD中提取在目标语言语义空间统一表征: (13);
(14);
其中,Hmt_pref表示跨语言预训练模型X‑MOD生成的目标语言句对序列的子词级表征, hmt_pref表示在目标语言语义空间统一表征,即源语言句对序列的子词级表征的起始符“[s]”的表征;
步骤S43,将规范化处理后的训练集内每个样本中机器译文和伪参考译文分别独立输入到跨语言预训练模型X‑MOD中,提取机器译文子词级表征和伪参考译文子词级表征: (15);
(16);
其中,Hmt表示机器译文子词级表征,Hpref表示伪参考译文子词级表征;
步骤S44,通过平均池化和交互推理增强获得在目标语言语义空间独立增强表征: (17);
(18);
(19);
其中,hmt表示机器译文整体表征,hpref表示伪参考译文整体表征,vmt_pref表示在目标语言语义空间独立增强表征;
步骤S45,将在目标语言语义空间统一表征和在目标语言语义空间独立增强表征拼接获取在目标语言语义空间的机器译文质量特征: (20);
其中,emt_pref表示在目标语言语义空间的机器译文质量特征。
6.根据权利要求5所述的一种基于多语义空间的机器译文质量估计方法,其特征在于:步骤S5中提取在跨语言语义空间的机器译文质量特征,具体为:步骤S51,将规范化处理后的训练集内每个样本中源语言句子和机器译文拼接成跨语言句对序列: (21);
其中,Xsrc_mt表示跨语言句对序列;
步骤S52,将跨语言句对序列输入到跨语言预训练模型X‑MOD中提取在跨语言语义空间统一表征: (22);
(23);
其中,Hsrc_mt表示跨语言预训练模型X‑MOD生成的跨语言句对序列的子词级表征, hsrc_mt表示在跨语言语义空间统一表征,即源语言句对序列的子词级表征的起始符“[s]”的表征;
步骤S53,对源语言句子整体表征和机器译文整体表征通过交互推理增强获得在跨语言语义空间独立增强表征: (24);
其中, vsrc_mt表示在跨语言语义空间独立增强表征;
步骤S54,将在跨语言语义空间统一表征和在跨语言语义空间独立增强表征拼接获取在跨语言语义空间的机器译文质量特征: (25);
其中,esrc_mt表示在跨语言语义空间的机器译文质量特征。
7.根据权利要求6所述的一种基于多语义空间的机器译文质量估计方法,其特征在于:步骤S6中提取多语义空间机器译文质量特征向量,具体为:将步骤S3中在源语言语义空间的机器译文质量特征、步骤S4中在目标语言语义空间的机器译文质量特征、和步骤S5中在跨语言语义空间的机器译文质量特征拼接输入多头自注意力网络层获取多语义空间机器译文质量特征向量: (26);
(27);
其中,emulti为多语义空间拼接向量,Multi‑head( )为多头自注意力网络层函数,eqe为多语义空间机器译文质量特征向量。
8.根据权利要求7所述的一种基于多语义空间的机器译文质量估计方法,其特征在于:步骤S7中预测基于多语义空间的机器译文质量得分,具体为:将步骤S6中多语义空间机器译文质量特征向量输入前馈神经网络层预测基于多语义空间的机器译文质量得分: (28);
其中,参数W1,W2,b1,b2为前馈神经网络层的参数,Tanh( )为前馈神经网络层的激活函数,QEscore为基于多语义空间的机器译文质量得分。
9.根据权利要求8所述的一种基于多语义空间的机器译文质量估计方法,其特征在于:步骤S8中均方差损失见公式(29)所示;
(29);
其中,Loss表示在训练集上的均方差损失,N表示训练集中样本的数量,i表示训练集中(i) (i)第i条样本,y 表示训练集中第i条样本机器译文的人类评价分值,QEscore 表示第i条样本预测的基于多语义空间的机器译文质量得分。
10.根据权利要求9所述的一种基于多语义空间的机器译文质量估计方法,其中机器译文质量估计,其特征在于:还包括有以下步骤:步骤S9,对源语言句子和待质量估计的机器译文进行规范化处理;
步骤S10,将步骤S9中规范化处理后的源语言句子和机器译文输入至步骤S8中训练后的基于多语义空间的机器译文质量估计模型,预测机器译文质量得分。