1.一种基于特征提取的知识图谱关系预测方法,其特征在于,包括:获取原始数据;根据原始数据构建初始知识图谱和待预测三元组;采用训练好的邻居编码器对待预测三元组进行处理,得到关系正确的三元组;根据关系正确的三元组补全初始知识图谱,得到完整的知识图谱;
对邻居编码器进行训练的过程包括:S1:获取正确的知识图谱;对知识图谱进行预处理,得到知识图谱的嵌入表示;
S2:在知识图谱中随机抽取K个三元组并将K个三元组作为支持集,将剩下的三元组作为正样本查询集;其中,三元组是包含头实体、关系实体和尾实体的管理单元;
S3:对正样本查询集中三元组的尾实体进行替换,得到负样本查询集;
S4:对知识图谱中所有实体的邻居实体进行抽样,得到每个实体的所有邻居实体;
S5:采用邻居编码器对每个实体的邻居实体进行特征提取,得到每个实体的邻居特征;
S6:将每个实体的邻居特征和对应实体进行融合,得到更新后的实体;
S7:将支持集与查询集中三元组的头实体和尾实体进行拼接,得到支持实体对和查询实体对;其中,查询集包括正样本查询集和负样本查询集;
S8:根据支持实体对和查询实体对计算支持实体对与查询实体对的相似度;
S9:根据支持实体对与正样本查询实体对的相似度和支持实体对与负样本查询实体对的相似度计算损失函数,根据损失函数调整邻居编码器参数,当损失函数最小时,得到训练好的邻居编码器。
2.根据权利要求1所述的一种基于特征提取的知识图谱关系预测方法,其特征在于,采用训练好的邻居编码器对待预测三元组进行处理包括:获取待预测三元组中实体的邻居实体;采用训练好的邻居编码器对每个实体的邻居实体进行特征提取,得到每个实体的邻居特征;将每个实体的邻居特征和对应实体进行融合,得到更新后的实体;将初始知识图谱三元组与待预测三元组的头实体和尾实体均进行拼接,得到初始知识图谱实体对和待预测实体对;根据初始知识图谱实体对和待预测实体对计算初始知识图谱实体对和待预测实体对的相似度;根据初始知识图谱实体对和待预测实体对的相似度计算每个待预测实体对的得分,将得分最高的待预测实体对为关系正确的三元组。
3.根据权利要求2所述的一种基于特征提取的知识图谱关系预测方法,其特征在于,计算每个待预测实体对的得分公式为:其中,similar_score表示得分,gj(s,q)表示待预测实体对与第j个初始知识图谱实体对的相似度,s表示初始知识图谱实体对,q表示待预测实体对,K表示初始知识图谱实体对的个数。
4.根据权利要求1或2所述的一种基于特征提取的知识图谱关系预测方法,其特征在于,采用邻居编码器对每个实体的邻居实体进行特征提取包括:采用不同尺寸的卷积核对邻居实体进行特征提取,得到不同尺度的特征映射;将不同尺度的特征映射进行最大池化操作,得到每种特征映射的最大池化结果;将每种特征映射的最大池化结果进行拼接,并将拼接后的最大池化结果输入到全连接层,得到邻居特征。
5.根据权利要求4所述的一种基于特征提取的知识图谱关系预测方法,其特征在于,得到的特征映射为:
p
其中,Xi表示计算得到的第i个特征,f()表示非线性函数,W 表示尺寸为p的卷积核,p
Ei:i+l‑1表示第i行元素到第i+l‑1行元素的邻居矩阵,W (a,c)Ei:i+l‑1(i+a,c)表示对邻居矩阵做卷积,l表示卷积核的长度,d表示卷积核的宽度。
6.根据权利要求4所述的一种基于特征提取的知识图谱关系预测方法,其特征在于,得到的邻居特征为:
其中,M表示第一参数矩阵,b表示偏置量,m表示尺寸不同的卷积核的种类数,Z表示拼接后的最大池化结果,h表示每种卷积核的个数。
7.根据权利要求1或2所述的一种基于特征提取的知识图谱关系预测方法,其特征在于,将每个实体的邻居特征和对应实体进行融合的公式为:e′=σ(W1·Y+W2·e)
其中,e′表示更新后的实体,e表示原实体,σ()表示激活函数,W1表示第二参数矩阵,W2表示第三参数矩阵,Y表示邻居特征。
8.根据权利要求1所述的一种基于特征提取的知识图谱关系预测方法,其特征在于,计算支持实体对与查询实体对的相似度包括:根据支持实体对和查询实体对计算支持实体对与查询实体对的余弦相似度;根据支持实体对和查询实体对计算支持实体对与查询实体对的欧式距离;根据支持实体对和查询实体对计算支持实体对与查询实体对的点乘值;根据余弦相似度、欧式距离和点乘值计算支持实体对和查询实体对的相似度。
9.根据权利要求8所述的一种基于特征提取的知识图谱关系预测方法,其特征在于,计算支持实体对和查询实体对的相似度的公式为:g(sr,qr)=αcos(θ)+βdist(sr,qr)+γd(sr,qr)d(sr,qr)=sr·qr
其中,g(sr,qr)表示支持实体对和查询实体对的相似度,cos(θ)表示支持实体对与查询实体对的余弦相似度,dist(sr,qr)表示支持实体对与查询实体对的欧式距离,d(sr,qr)表示支持实体对与查询实体对的点乘值,sr表示支持实体对,qr表示查询实体对,n表示总维度,表示支持实体对的第i维度元素, 表示查询实体对的第i维度元素,α表示余弦相似度权重,β表示欧式距离权重,γ表示点乘值权重。
10.根据权利要求1所述的一种基于特征提取的知识图谱关系预测方法,其特征在于,损失函数为:
+ +
其中,G表示损失函数,qr表示正样本查询实体对,表示负样本查询实体对,Qr表示正样本查询实体对集合,表示负样本查询实体对集合,γ表示期望得分差距, 表示负样本查询实体对与支持实体对的相似度, 表示正样本查询实体对与支持实体对的相似度。