利索能及
我要发布
收藏
专利号: 2023109972953
申请人: 西安工程大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-08-29
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.基于预训练模型T5的学术知识图谱补全方法,其特征在于,该方法按照以下步骤实施,步骤1:对学术领域知识图谱数据集中的三元组进行数据清洗,将三元组转换为连贯句子作为模型输入;所述三元组包括头实体、关系、尾实体;所述学术知识图谱中包括的实体类型有论文、作者、机构;

步骤2:修改T5模型预训练词汇表,在词汇表中加入在科学文本语料上训练得到的sciBERT分词器中的高频令牌;修改T5模型词汇表的方法具体如下:步骤2.1:利用sciBERT模型分词器对步骤1处理得到的句子进行分词,统计分词结果中各令牌出现频率;

步骤2.2:利用T5模型分词器对步骤1处理得到的句子进行分词,统计分词结果中各令牌出现频率;

步骤2.3:对比两个模型分词结果,统计分词结果不同的令牌的频率,按照从高到低进行排序,取频率最高的前999个令牌替换T5词汇表中预留的令牌,将这些令牌的权重随机初始化,在保留现有模型能力情况下训练这些高频令牌的嵌入表示;

步骤3:将步骤1处理后的连贯句子经步骤2修改词汇表后的T5模型进行编码;

步骤4:采用集束搜索算法缩小T5模型解码器的搜索空间,解码后得到待预测的实体/关系的文本并对模型输出进行打分排序得到预测结果;具体如下:步骤4.1:解码器中选择使用集束搜索算法来进行解码,将集束搜索算法中的集束宽度N设置为3,集束搜索算法对待预测词汇e的概率进行计算,计算方法为:p(e)=max{logp(e1|F),logp(e2|F),logp(e3|F)},e∈c其中,c为分词器中包含的所有令牌的集合;e1、e2、e3分别对数概率最高的三个令牌;F是模型预测输出的正确概率;

步骤4.2:通过自回归解码的方式来计算预测输出的得分,最后按照得分从高到低进行排序得到预测结果,得分计算公式为:x为模型的输入序列;y代表模型的预测输出序列;zi代表第i个令牌;c为分词器中包含的所有令牌集合;

步骤4.3:训练过程采用标准的序列到序列模型目标函数 进行优化。

2.根据权利要求1所述的基于预训练模型T5的学术知识图谱补全方法,其特征在于,步骤1具体如下:步骤1.1:对知识图谱数据集进行数据清洗,删除数据集中三元组存在实体或关系缺失的数据项;

步骤1.2:学术知识图谱只包含少量关系类型,对每一种关系设计一个固定的句子模板,该模板用于将三元组转换为连贯句子,在句子模板中加入软提示符对三元组的头实体、关系和尾实体的字符进行区分,最后将三元组转换为连贯句子;

步骤1.3:对学术知识图谱中的关系进行分析,将头实体和尾实体的类型补充到原始数据项,学术知识图谱中包括的实体类型有论文、作者、机构;

步骤1.4:知识图谱补全任务可分为链接预测任务和关系预测任务,针对两个子任务,将步骤1.2处理完的连贯句子进行输入和输出的拆分;对链接预测任务将头/尾实体和关系作为输入,输出为待预测实体;对关系预测任务则将头实体和尾实体一起作为输入,输出为实体间的关系;

步骤1.5:将步骤1.3中得到的实体类型作为前缀提示的一部分添加到步骤1.2中设计的句子模板前,对输入进行增强。

3.根据权利要求1所述的基于预训练模型T5的学术知识图谱补全方法,其特征在于,步骤3具体如下:步骤3.1:将步骤1处理得到连贯句子通过T5模型的分词器进行分词处理;

步骤3.2:将分词后的令牌序列通过编码器进行编码,得到[x1,x2,x3,...,xn];

步骤3.3:将编码后的令牌序列输入经带有预训练权重的T5模型得到句子的嵌入表示[y1,y2,y3,...,yn]。

4.根据权利要求2所述的基于预训练模型T5的学术知识图谱补全方法,其特征在于,所述句子模板融入了实体类型信息的前缀提示,具体如下:[SP]h[SP]r[SP]t

其中,[SP]为软提示符;h和r为头实体和尾实体;r代表实体间关系。