买专利、卖专利、专利购买、专利交易、专利出售、高企申报-基于预训练模型T5的学术知识图谱补全方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

基于预训练模型T5的学术知识图谱补全方法

￥55200

专利号： 2023109972953

申请人：西安工程大学

专利类型：发明专利

专利状态：已下证

更新日期：2025-08-29

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.基于预训练模型T5的学术知识图谱补全方法，其特征在于，该方法按照以下步骤实施，步骤1：对学术领域知识图谱数据集中的三元组进行数据清洗，将三元组转换为连贯句子作为模型输入；所述三元组包括头实体、关系、尾实体；所述学术知识图谱中包括的实体类型有论文、作者、机构；

步骤2：修改T5模型预训练词汇表，在词汇表中加入在科学文本语料上训练得到的sciBERT分词器中的高频令牌；修改T5模型词汇表的方法具体如下：步骤2.1：利用sciBERT模型分词器对步骤1处理得到的句子进行分词，统计分词结果中各令牌出现频率；

步骤2.2：利用T5模型分词器对步骤1处理得到的句子进行分词，统计分词结果中各令牌出现频率；

步骤2.3：对比两个模型分词结果，统计分词结果不同的令牌的频率，按照从高到低进行排序，取频率最高的前999个令牌替换T5词汇表中预留的令牌，将这些令牌的权重随机初始化，在保留现有模型能力情况下训练这些高频令牌的嵌入表示；

步骤3：将步骤1处理后的连贯句子经步骤2修改词汇表后的T5模型进行编码；

步骤4：采用集束搜索算法缩小T5模型解码器的搜索空间，解码后得到待预测的实体/关系的文本并对模型输出进行打分排序得到预测结果；具体如下：步骤4.1：解码器中选择使用集束搜索算法来进行解码，将集束搜索算法中的集束宽度N设置为3，集束搜索算法对待预测词汇e的概率进行计算，计算方法为：p(e)＝max{logp(e1|F),logp(e2|F),logp(e3|F)},e∈c其中，c为分词器中包含的所有令牌的集合；e1、e2、e3分别对数概率最高的三个令牌；F是模型预测输出的正确概率；

步骤4.2：通过自回归解码的方式来计算预测输出的得分，最后按照得分从高到低进行排序得到预测结果，得分计算公式为：x为模型的输入序列；y代表模型的预测输出序列；zi代表第i个令牌；c为分词器中包含的所有令牌集合；

步骤4.3：训练过程采用标准的序列到序列模型目标函数进行优化。

2.根据权利要求1所述的基于预训练模型T5的学术知识图谱补全方法，其特征在于，步骤1具体如下：步骤1.1：对知识图谱数据集进行数据清洗，删除数据集中三元组存在实体或关系缺失的数据项；

步骤1.2：学术知识图谱只包含少量关系类型，对每一种关系设计一个固定的句子模板，该模板用于将三元组转换为连贯句子，在句子模板中加入软提示符对三元组的头实体、关系和尾实体的字符进行区分，最后将三元组转换为连贯句子；

步骤1.3：对学术知识图谱中的关系进行分析，将头实体和尾实体的类型补充到原始数据项，学术知识图谱中包括的实体类型有论文、作者、机构；

步骤1.4：知识图谱补全任务可分为链接预测任务和关系预测任务，针对两个子任务，将步骤1.2处理完的连贯句子进行输入和输出的拆分；对链接预测任务将头/尾实体和关系作为输入，输出为待预测实体；对关系预测任务则将头实体和尾实体一起作为输入，输出为实体间的关系；

步骤1.5：将步骤1.3中得到的实体类型作为前缀提示的一部分添加到步骤1.2中设计的句子模板前，对输入进行增强。

3.根据权利要求1所述的基于预训练模型T5的学术知识图谱补全方法，其特征在于，步骤3具体如下：步骤3.1：将步骤1处理得到连贯句子通过T5模型的分词器进行分词处理；

步骤3.2：将分词后的令牌序列通过编码器进行编码，得到[x1,x2,x3,...,xn]；

步骤3.3：将编码后的令牌序列输入经带有预训练权重的T5模型得到句子的嵌入表示[y1,y2,y3,...,yn]。

4.根据权利要求2所述的基于预训练模型T5的学术知识图谱补全方法，其特征在于，所述句子模板融入了实体类型信息的前缀提示，具体如下：[SP]h[SP]r[SP]t

其中，[SP]为软提示符；h和r为头实体和尾实体；r代表实体间关系。

推荐专利

一种知识图谱补全的方法

发明专利

￥31200

一种基于神经网络的机器自学习构建知识图谱训练方法

我要求购

您有专利需要变现?

我要出售

智能匹配需求，快速出售

摘要:

权利要求书:

利索能及

友情链接

关于我们

联系我们