利索能及
我要发布
收藏
专利号: 2023114737239
申请人: 陕西昕晟链云信息科技有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2026-01-15
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.基于人工智能的自然语言数据处理方法,其特征在于,该方法包括以下步骤:获取源语言和目标语言的单语语料、正常数据集及噪声数据集;

获取源语言、目标语言的双语词嵌入词表;将噪声数据集中源语言与目标语言中任意两句组成语句对,对于噪声数据集各语句对,根据双语词嵌入词表构建语句对的词对相似矩阵;获取正常数据集各词的词频‑逆文档频率值;根据正常数据集各词的词频‑逆文档频率值构建语句对的词对共现权重矩阵;通过语句对的词对共现权重矩阵及词对相似矩阵得到语句对的加权词对相似矩阵;根据语句对的加权词对相似矩阵计算语句对的最大加权相似指数;根据语句对的加权词对相似矩阵计算语句对的阈值加权相似指数;根据语句对的最大加权相似指数及阈值加权相似指数得到语句对的潜在噪声指数;

根据语句对的潜在噪声指数训练机器翻译模型,便于自然语言数据的处理;

所述根据语句对的加权词对相似矩阵计算语句对的最大加权相似指数,包括:获取语句对的加权词对相似矩阵各行向量、各列向量最大的加权语义相似度,计算所有行向量和所有列向量的所述最大的加权语义相似度的均值作为语句对的最大加权相似指数;

所述根据语句对的加权词对相似矩阵计算语句对的阈值加权相似指数,包括:对于语句对的加权词对相似矩阵各元素,将加权语义相似度大于阈值选择系数的所有元素的加权语义相似度均值作为语句对的阈值加权相似指数;

所述最大加权相似指数的具体表达式为:

式中,表示语句对的最大加权相似指数,表示源语言句子长度, 表示加权词对相似矩阵第i行所有元素的加权语义相似度,表示目标语言句子长度, 表示加权词对相似矩阵第j列所有元素的加权语义相似度;

所述阈值加权相似指数的具体表达式为:

式中,表示语句对的阈值加权相似指数,n表示源语言句子长度,m表示目标语言句子长度, 表示源语言第i个词与目标语言第j个词的加权语义相似度,表示阈值选择系数;

所述根据语句对的最大加权相似指数及阈值加权相似指数得到语句对的潜在噪声指数,包括:式中,表示潜在噪声指数,表示语句对的最大加权相似指数,  表示语句对的阈值加权相似指数。

2.如权利要求1所述的基于人工智能的自然语言数据处理方法,其特征在于,所述获取源语言、目标语言的双语词嵌入词表,包括:通过Glove模型获取源语言和目标语言的单语词嵌入词表,采用vecmap工具将源语言、目标语言的单语词嵌入词表映射到相同的向量空间得到源语言、目标语言的双语词嵌入词表。

3.如权利要求1所述的基于人工智能的自然语言数据处理方法,其特征在于,所述根据双语词嵌入词表构建语句对的词对相似矩阵,包括:语句对的词对相似矩阵的尺寸大小为源语言和目标语言的词对数乘积;

将语句对中源语言各词的双语词向量与目标语言所有词的双语词向量的乘积得到源语言各词的语义相似度序列,将所述语义相似度序列作为所述词对相似矩阵各个行向量。

4.如权利要求1所述的基于人工智能的自然语言数据处理方法,其特征在于,所述获取正常数据集各词的词频‑逆文档频率值,包括:对于正常数据集各词,将每个词在正常数据集中出现的个数与总词数的比值作为每个词的词频;

统计每个词在正常数据集中出现的句子数,将正常数据集的句子总数与所述句子数的比值作为以自然常数为底数的对数函数的对数,将对数函数的计算结果作为每个词的逆文档频率;

将每个词的词频与逆文档频率的乘积的归一化值作为每个词的词频‑逆文档频率值。

5.如权利要求1所述的基于人工智能的自然语言数据处理方法,其特征在于,所述根据正常数据集各词的词频‑逆文档频率值构建语句对的词对共现权重矩阵,包括:语句对的共现权重矩阵的尺寸大小为源语言和目标语言的词数乘积;

将语句对中源语言各词的词频‑逆文档频率值与目标语言所有词的词频‑逆文档频率值的乘积组成源语言各词的共现权重序列,将所述共现权重序列作为所述共现权重矩阵各个行向量。

6.如权利要求1所述的基于人工智能的自然语言数据处理方法,其特征在于,所述通过语句对的词对共现权重矩阵及词对相似矩阵得到语句对的加权词对相似矩阵,包括:对于语句对的加权词对相似矩阵各元素,根据元素在词对共现权重矩阵对应位置元素的共现权重与词对相似矩阵对应位置元素的语义相似度的乘积得到元素的加权语义相似度。

7.如权利要求1所述的基于人工智能的自然语言数据处理方法,其特征在于,所述根据语句对的潜在噪声指数训练机器翻译模型,包括:对于噪声数据集各语句对,将语句对的潜在噪声指数作为机器翻译模型中各语句对的采样权重进行采样,通过采样的数据训练机器翻译模型。