1.一种开放世界知识图谱补全方法,其特征在于,构建知识图谱补全模型,该模型包括Word2Vec模块、注意力模块、打分模块,开放世界知识图谱补全方法包括以下步骤:S1.获取三元组数据,三元组数据中每个三元组包括头部实体描述,头部实体名称,关系名称,候选尾部实体描述,候选尾实体;
S2.使用Word2Vec模块对头部实体描述和候选尾部实体描述进行词嵌入,得到头实体向量和候选尾实体向量,将头部实体名称与关系名称的文本连接视作问题,使用Word2Vec模块对问题进行词嵌入得到问题向量;
S3.采用注意力模块计算头实体向量和问题向量,得到关系感知表示;
S4.将头实体向量与关系感知进行连接,采用Transformer提取连接结果的全局特征,得到连接结果的向量表示;
S5.采用GRU网络对问题向量进行编码,通过门控机制将编码后的问题向量与连接结果的向量表示融合,并将融合结果输入CNN网络,得到第一CNN输出;
S6.采用Transformer提取候选尾实体向量的全局特征,得到候选向量表示并输入CNN网络,得到第二CNN输出;
S7.通过打分模块对第一CNN输出与第二CNN输出进行打分,并输出分数;
S8.采用交叉熵损失函数计算分数的损失值,使用Adam优化算法训练知识图谱补全模型参数,直到模型参数收敛;
S9.获取待补全的知识图谱并输入训练好的知识图谱补全模型进行补全。
2.根据权利要求1所述的一种开放世界知识图谱补全方法,其特征在于,三元组数据从DBpedia50k数据集和DBpedia500k数据集中获取,将三元组数据以8:1:1的比例划分为训练集、验证集和测试集数据集。
3.根据权利要求2所述的一种开放世界知识图谱补全方法,其特征在于,对三元组数据*添加标签y表示三元组的正确性,即正确三元组标签为1,错误三元组标签为0,标签表示为*y∈{0,1}。
4.根据权利要求1所述的一种开放世界知识图谱补全方法,其特征在于,注意力模块中采用的注意力函数为:其中, 为注意力分数,x表示输入单词,Y表示文本,yi表示文本中的第i个单词,m为文本长度,w是一个权重矩阵,α(·)是ReLU非线性激活函数。
5.根据权利要求4所述的一种开放世界知识图谱补全方法,其特征在于,根据注意力模块中的注意力函数得到头实体向量对应的关系感知表示其中, 为头实体向量中的第i个词嵌入, 为问题向量集合,att(·)表示注意力函数。
6.根据权利要求1所述的一种开放世界知识图谱补全方法,其特征在于,步骤S5中编码后的问题向量与连接结果的向量表示的融合结果表示为:其中,σ是sigmoid函数, 为编码后的问题向量, 为头实体向量与关系感知的连接结果采用Transformer提取全局特征之后的向量表示。
7.根据权利要求1所述的一种开放世界知识图谱补全方法,其特征在于,打分模块采用双线性打分函数表示为:其中, 为第一CNN输出, 为第二CNN输出,Ws是需要被训练的变换矩阵。
8.根据权利要求1所述的一种开放世界知识图谱补全方法,其特征在于,交叉熵损失函数表示为:其中,yi是第i个三元组的标签值,y′i表示模型输出的第i个候选尾实体的分数,m表示三元组总数量。
9.一种开放世界知识图谱补全装置,其特征在于,包括:
获取模块,用于获取待补全的知识图谱数据;
Word2Vec模块,用于对获取模块中的知识图谱数据进行词嵌入,得到头实体向量、候选尾实体向量和问题向量;
注意力模块,用于计算头实体向量和问题向量,得到关系感知表示;
Transformer模块,用于提取头实体向量与关系感知连接结果的全局特征得到连接结果的向量表示,并提取候选尾实体向量的全局特征得到候选向量表示;
融合模块,用于通过门控机制将编码后的问题向量,与Transformer模块输出的连接结果的向量表示进行融合;
CNN网络,用于对融合模块的融合结果和Transformer模块的候选向量表示进行特征抽取;
打分模块,用于对CNN网络输出的结果进行打分,选取最高分数对应的三元组作为新的三元组补入知识图谱。