利索能及
我要发布
收藏
专利号: 2021110699455
申请人: 内蒙古工业大学
专利类型:发明专利
专利状态:已下证
更新日期:2024-12-09
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种结合文本双曲分段知识嵌入多重知识图谱的问答方法,其特征在于,包括如下步骤:

步骤1,利用双曲分段嵌入模型,实现知识图谱中实体和关系的初始化,所述实体包括头实体和尾实体;

步骤2,针对自然语言提出的问题,利用RoBERTa模型进行问题嵌入,并构建异构图,融合与问题相关的知识图谱与文本;

步骤3,利用文本中的语义信息丰富知识图谱中实体嵌入的表示,并将文本作为超边,补充不完整知识图谱中的关系;

步骤4,将结合文本的实体嵌入、问题嵌入和候选答案构建新三元组,并采用评分函数进行打分,实现知识图谱问答;

所述步骤1中,先训练双曲几何嵌入模型,再训练双曲分段嵌入模型,所述双曲分段嵌入模型是将双曲实体或双曲关系嵌入分割成不同片段,并对其进行多线性点积;

所述双曲几何嵌入模型的训练中,采用具有负曲率c的m维庞加莱球模型建模知识图谱,在庞加莱球模型上点X与点Y之间的距离d(X,Y)用双曲空间距离公式表示为:其中,arccosh(.)表示反双曲余弦函数,‖.‖表示L2范数;

知识图谱用三元组(h,r,t)表示,其中h代表头实体,t代表尾实体,r代表头实体和尾实体之间的关系,(h,r,t)∈V×R×V,V,R均表示实体数据集,对头实体h运用Rotation与Reflection参数进行旋转和映射,公式表示如下:其中,Rot表示旋转,Ref表示映射;P代表庞加莱求模型; 代表庞加莱球模型双曲实体嵌入的旋转值, 代表庞加莱球模型双曲关系嵌入的映射值;Θr,Φr均表示关系专用参数; 表示双曲头实体嵌入;

然后利用双曲注意力机制将 和 结合并应用于双曲变换公式,表示如下:

其中,Q(p,r)表示查询嵌入,即双曲头实体嵌入的旋转和反射逻辑编码模式与双曲关系嵌入进行逻辑运算的值,Att代表双曲注意力机制; 代表双曲关系嵌入,通过双曲嵌入r模型获取,r∈R;a表示有关关系的双曲注意力机制的载体; 是一个逻辑运算符号,它表示先进行异或运算,再取其补集;

最后通过双曲空间距离公式将查询嵌入与双曲尾实体嵌入进行比较,得到评分函数s(p,r,t),如下式所示:其中, 表示双曲尾实体嵌入, 表示Q(p,r)与 之间距离的补集;

bh,bt表示在评分函数中作为边界值的实体偏差;

所述双曲分段嵌入模型的训练中,是将双曲头实体嵌入和双曲尾实体嵌入的双曲关系嵌入 划分奇偶段:首先,假设双曲关系嵌入 为d维,将双曲关系嵌入 的d维嵌入均匀划分为k段;其次,将双曲关系嵌入 分为奇数段和偶数段来保持关系的对称性和反对称性质;最后,使用wx,y来确定候选答案所落的位置,当x为偶数时,wxy=y,当x为奇数时,wx,y=(x+y)%k。

2.根据权利要求1所述结合文本双曲分段知识嵌入多重知识图谱的问答方法,其特征在于,所述步骤2中,首先,使用RoBERTa模型将问题嵌入到多维向量中;其次,通过若干完全连接的线性层,并通过ReLU激活,最终将问题投射到固定的维向量空间中实现问题嵌入;然后,使用两个并行管道即知识图谱和文档,检索问题子图;最后将检索到的实体和文档与实体链接L结合起来,生成一个完全连接的图,即所述的异构图。

3.根据权利要求2所述结合文本双曲分段知识嵌入多重知识图谱的问答方法,其特征在于,所述步骤3中,以查询编码、文本编码和知识图谱编码为输入,在结合文本推理的知识图谱中,输入部分利用文本信息,通过丰富实体嵌入和添加超边来改进不完整知识库,并将图卷积网络(Graph Convolution Network,GCN)和异构图卷积网络(Heterogeneous Graph Convolution Network,HGCN)应用于推理。

4.根据权利要求3所述结合文本双曲分段知识嵌入多重知识图谱的问答方法,其特征在于,在结合文本推理的知识图谱中,运用GCN来丰富知识图谱中的实体,并采用HGCN对超图格式的文本进行编码,将纯文本视为连接文本之间实体的超边。

5.根据权利要求1所述结合文本双曲分段知识嵌入多重知识图谱的问答方法,其特征在于,所述步骤4中,将结合文本的实体,问题与候选答案嵌入再次运用双曲分段嵌入模型进行训练,该模型通过最小化分数的sigmoid函数与目标标签之间的二值交叉熵损失函数来学习,其中目标标签为1的是正确的回答,目标标签为0的是不正确的回答;训练完成后,模型根据所有可能的实体/问题对,对所有可能的候选答案运用步骤1中的分段评分函数进行打分,选择分数最高的候选答案为最终答案。