利索能及
我要发布
收藏
专利号: 2024116513311
申请人: 南京信息工程大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-01-08
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种知识图谱补全的方法,其特征在于,包括如下步骤:步骤1,获取实体集数据、关系集数据、实体与关系文本描述数据,在给定知识图谱G的三元组:头实体h、关系r、尾实体t中,生成逆三元组:t、逆关系 、h,并补充到知识图谱G当中,通过随机替换三元组中的尾实体t,生成负样本;

步骤2,获取步骤1所述的三元组和实体集数据、关系集数据、实体与关系文本描述数据,采用双文本编码器架构,两个文本编码器使用相同的Sentence‑Bert预训练语言模型进行文本特征提取,但内置参数不共享;将三元组中头实体关系文本信息作为第一个文本编码器的输入,尾实体文本信息作为第二个文本编码器的输入,并分别提取两个文本编码器的最后一层隐藏层作为对应的文本特征;

步骤3,提取步骤2中的文本特征,通过可变形自适应注意力机制,生成文本嵌入;

步骤4,利用步骤3得到的文本嵌入,计算头实体关系嵌入与尾实体嵌入之间的余弦相似性得分,并添加基于路径推理的权重增益得分,得到三元组相似性得分;

步骤5,基于步骤4得到的三元组相似性得分,采用具有附加裕度的信息噪声对比估计损失函数,优化文本嵌入;

步骤6,基于步骤1 步骤5得到训练后的知识图谱补全模型,使用文本嵌入的余弦相似~性得分进行三元组最大相似性匹配。

2.根据权利要求1所述的方法,其特征在于,步骤1包括如下步骤:步骤1.1中,三元组(h, r, t)是知识图谱的基本组成单元,三元组通过头实体经关系链接至尾实体构成基本数据;实体集与关系集通过从知识图谱中提取头实体和尾实体来构建,并将链接关系提取为关系集,经过去重处理后获得最终的实体集与关系集;实体与关系文本描述数据是使用WordNet根据文本词提供的词义信息;

‑1

步骤1.2,将正三元组(h, r, t)转变为逆三元组(t,r ,h),在关系文本词前添加非,并将头实体与尾实体交换位置,从而生成逆三元组;

步骤1.3,生成负样本,对任意三元组(h, r, t)中的尾实体t进行随机替换,以生成负样本进行判别模型的训练,同时使用了如下两种负样本生成方法:批内生成负样本:选定批次大小,通过在同一批次内替换三元组的尾实体生成负样本;

前批生成负样本:使用前一个或更多的批次中实体来替换三元组中的尾实体,生成更多负样本。

3.根据权利要求2所述的方法,其特征在于,步骤2包括如下步骤:步骤2.1,将实体、关系的文本词与文本描述拼接在一起作为对应的文本信息,将头实体关系文本信息作为第一文本编码器的输入,尾实体文本信息作为第二个文本编码器的输入,公式为:,

其中, 是头实体关系句子, 是尾实体句子, 是头实体词, 是关系词, 是尾实体词, 是头实体的文本描述, 是关系的文本描述, 是尾实体的文本描述;

是一个分类标记, 是一个分隔标记;

步骤2.2,采用Sentence‑BERT预训练语言模型作为文本编码器进行特征编码,并提取文本编码器的最后一层隐藏状态作为对应文本的文本特征,公式为:,

其中, 是第一个文本编码器Sentence‑Bert的函数表达; 是第二个文本编码器Sentence‑Bert的函数表达; 是第一个文本编码器的输入句子 经过第一个文本编码器的头实体关系文本特征; 是尾实体的文本词及其文本描述组成的句子, 是经过第二个文本编码器的尾实体文本特征。

4.根据权利要求3所述的方法,其特征在于,步骤3中,所述可变形自适应注意力机制包括可变形多头注意力机制和自适应门控融合机制;步骤3具体包括如下步骤:步骤3.1中,引入可变形多头注意力机制,对文本特征进行偏移采样;

步骤3.2中,将文本特征与可变形多头注意力特征进行拼接,并通过激活函数计算门控权重,对拼接后的特征进行门控处理,门控权重与文本特征、可变形多头注意力特征进行自适应融合,生成融合后的嵌入向量,最终得到用于知识图谱补全的特征嵌入。

5.根据权利要求4所述的方法,其特征在于,步骤3.1包括如下步骤:步骤3.1.1,通过查询特征计算采样权重和采样偏移,公式为:,

其中, 、weight是线性变换的函数表达,offset的输出维度为 ,weight的输出维度为 ; 是维度表示,M是头注意力总数,K是每个头注意力中的总采样数;X是查询特征; 和 分别表示第m个头注意力中第k个采样点的采样权重和采样偏移;

步骤3.1.2,对偏移权重进行归一化处理,公式为:,

其中, 是第m个头注意力中对K个采样权重求和, 是进过归一化处理后的第m个头注意力中第k个采样点的采样权重;

步骤3.1.3,对文本特征进行偏移采样,并用双线性插值法计算多头采样特征,公式为:,

其中, 是第m个头注意力第k个采样点的多头采样特征; 是双线性插值法的函数表示;H是文本特征;

步骤3.1.4,采用如下公式进行加权求和:,

其中, 是第m个头注意力的采样特征加权和;

步骤3.1.5,通过线性变换处理,将采样特征加权和输出为可变形多头注意力特征,公式为:,

其中D是可变形多头注意力特征, 是可学习权重矩阵。

6.根据权利要求5所述的方法,其特征在于,步骤3.2包括如下步骤:步骤3.2.1,将文本特征与可变形多头注意力特征进行文本拼接,公式为:,

其中,AF是拼接特征,Com是文本拼接的函数表达;

步骤3.2.2,将拼接特征通过激活函数sigmoid计算门控权重,公式为:,

其中,GATE是门控权重, 是激活函数;

步骤3.2.3,将门控权重与文本特征、可变形多头注意力特征进行自适应融合,公式为:,

其中,E是输出的嵌入向量。

7.根据权利要求6所述的方法,其特征在于,步骤4包括如下步骤:步骤4.1,通过计算嵌入向量之间的余弦相似度来衡量关联程度,公式为:,

其中, 是余弦相似度函数, 是头实体关系嵌入, 是尾实体嵌入,|| ||是计算范数;表示向量点积运算;

步骤4.2,在给定知识图谱中,利用知识图谱的空间局限性,通过捕捉实体对之间的空间距离,生成权重增益得分:= exp[‑ɤ· ,

其中, 是头实体h与尾实体t之间对应的权重增益得分,ɤ是超参数, 表示尾实体t位于头实体h的L跳邻域内;exp是自然指数函数;

步骤4.3,通过余弦相似度得分与权重增益得分,计算出三元组相似性得分:,

其中, 是三元组相似性得分。

8.根据权利要求7所述的方法,其特征在于,步骤5包括:采用具有附加裕度的信息噪声对比估计损失函数,优化正三元组的嵌入余弦相似性得分,提高模型的预测准确性,公式为:,

其中, 是余弦相似度嵌入的模型损失,N是负样本数量, 是第n个负样本中的尾实体,是附加裕度;是超参数;e是自然常数。

9.根据权利要求8所述的方法,其特征在于,步骤6还包括:使用三元组最大相似性匹配:在头实体关系一定的情况下,对任意尾实体进行匹配,得分相似性最大即为潜在的知识图谱三元组:,

其中, 函数表示寻找目标范围内的最大值,是实体集;是第i个尾实体,用于和头关系实体进行相似性匹配。

10.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有程序代码,当所述程序代码被所述处理器执行时,使得所述处理器执行如权利要求1至9中任一项所述的方法的步骤。