利索能及
我要发布
收藏
专利号: 2025101663378
申请人: 乐山师范学院
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-30
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种领域本体构建方法,其特征在于,包括:获取领域本体构建的提示词 ;

所述获取领域本体构建的提示词 ,具体包括:领域本体构建任务分解为包括概念分类、关系分类和属性分类的三个信息抽取子任务;

分别设计三个信息抽取子任务的输出模板;

选择多个公开大模型,测试每个公开大模型输出并微调提示词,选择 个可用并且具备领域知识的大模型集合 ;

根据信息抽取子任务的输出模板和大模型集合确定提示词 ;

将提示词 作为查询文本在多个公开大模型所提供的用户接口中进行查询,得到由各个大模型输出的反馈文本组成的领域本体反馈文本集合 ;其中,所述多个公开大模型表示为: , 为公开大模型的总数, 为第 个公开大模型;所述领域本体反馈文本集合具体为 , 为第 个公开大模型输出的反馈文本;

对领域本体反馈文本集合 中的每个反馈文本进行文本解析,得到文本中的领域概念、关系和属性词汇;以领域概念和属性词汇为结点,以领域概念之间的关系和领域概念与属性词汇之间的关系为边,构建领域候选本体图 ,得到领域候选本体图集合;

对领域候选本体图集合 中每个节点和每条边的重复度和权重进行更新,采用结合相似度的有向图合并算法将更新后的节点和边合并至初始化带权重的空图,得到领域候选本体图 ;

对领域候选本体图 进行置信度评估,选择图中置信度大于设定阈值的结点和边,得到最终的领域本体图 。

2.如权利要求1所述的一种领域本体构建方法,其特征在于,所述构建领域候选本体图,具体包括:依次对 中的每个文本 进行文本解析,得到文本 中所包含的概念集合、属性集合 和关系集合 ;

根据概念集合 、属性集合 和关系集合 ,构建文本 对应的领域候选本体图 ;

将领域候选本体图添加至领域候选本体图集合 。

3.如权利要求2所述的一种领域本体构建方法,其特征在于,所述依次对 中的每个文本 进行文本解析,具体包括:初始化概念集合 、属性集合 和关系集合 为空集;

依次扫描文本 中每一行 ,根据输出模板判断 的类型,所述类型包括概念分类、关系分类或属性分类;

若 属于概念分类输出模板,则初始化概念词汇集合 为空集,按输出模板提取 文本中的概念词汇并添加至集合 ;依次扫描概念词汇集合 中的每个概念词汇 ,在概念集合 查找每个词汇,若不存在,则将词汇 添加至概念集合 ;以概念词汇集合中第一个概念词汇 为主体,余下所有概念词汇 为客体,谓词或关系类型为 ,分别构成关系三元组并添加至关系集合 ;

若 属于关系分类输出模板,则初始化关系集合 为空集,按输出模板提取 文本中的关系名 和若干个关系对并添加至集合 ;

依次扫描关系集合 ,以集合中每个关系对 中两个概念词汇和 分别为主体和客体,谓词或关系类型为 ,构成关系三元组并添加至关系集合 ;

若 属于属性分类输出模板,则初始化属性集合 为空集,按输出模板提取 文本中的概念词汇 和所有属性词汇并添加至集合;依次扫描属性词汇集合 中的每个属性词汇 ,将词汇 添加至属性结点集合 ;

依次扫描属性词汇集合 中的每个属性词汇 ,以概念词汇为主体,属性词汇 为客体,谓词或关系类型为 ,分别构成关系三元组并添加至关系集合 ;

重复迭代,直至文本 中所有文本行处理结束为止。

4.如权利要求2所述的一种领域本体构建方法,其特征在于,所述构建文本 对应的领域候选本体图 ,具体包括:初始化领域候选本体图 为空图,结点集合 和边集合 均为空集;

扫描概念集合 中每个概念 ,在领域候选本体图 的结点集合中添加一个结点,该结点标签为 ,类型为 ;

扫描属性集合 中每个属性 ,在领域候选本体图 的结点集合 中添加一个结点,该结点标签为 ,类型为 ;

扫描关系集合 中的每个关系 ,设其对应的关系三元组为,分别在图 中找到 和 对应的概念结点或属性结点和 ,在领域候选本体图 的边集合 中添加一条从到 的有向边,边的类型为 。

5.如权利要求2所述的一种领域本体构建方法,其特征在于,所述得到领域候选本体图,具体包括:初始化带权重的领域候选本体图 为空图,结点集合 和边集合均为空集;

将集合 中第一个有向图 复制到 , 的结点集合 ,边集合 ,集合中每个结点和每条边的重复度和权重均初始化为1;

依次扫描集合 中余下的每一个有向图 ,采用结合相似度的结点合并算法将 中的结点合并到 ,并更新结点的重复度和权重;

依次扫描集合 中余下的每一个有向图 ,采用结合相似度的边合并算法将 中的边合并到 ,并更新边的重复度和权重。

6.如权利要求5所述的一种领域本体构建方法,其特征在于,所述更新结点的重复度和权重,具体包括:依次扫描领域候选本体图 中的每一个结点 ,获取结点标签和结点类型 ;

在 的结点集合 中查找与 结点标签相同的结点 或最相似结点 ,其中最相似结点 采用词汇的相似度计算方法获取,以结点标签为词汇,结点 的相似度值 且值最大,为预设相似度阈值;

若相同结点 存在,判断 和 的结点类型是否也相同;如果相同,则更新 图中 的重复度和权重,将重复度和权重均加1;如果不同,则在 的结点集合 中添加结点 ,结点的重复度和权重均置为1;

若相同结点 不存在但存在最相似结点 ,判断 和的类型是否也相同;如果相同,则更新 图中 的重复度和权重,重复度加1,权重加上相似度值 ;更新 中 的结点标签为结点标签;如果不相同,则在 的结点集合 中添加结点,结点的重复度和权重均置为1;

若 和 都不存在,则在 的结点集合 中添加结点,结点的重复度和权重均置为1;

重复迭代,直至领域候选本体图 中的所有结点均处理完成。

7.如权利要求5所述的一种领域本体构建方法,其特征在于,所述更新边的重复度和权重,具体包括:依次扫描领域候选本体图 中的边 ,获取该边所依附的主体和客体结点标签 和 ,以及边的类型 ;

在 的边集合 中查找与 的主体和客体结点标签均相同的边,并构成集合 ;

若 集合中无边存在,则在 的边集合 中添加边,边的重复度和权重均置为1;

若 集合中有边存在,则在该集合中查找与 的边类型相同的边或最相似边 ,其中最相似边 采用词汇的相似度计算方法获取,以边类型为词汇;边 的相似度值 且值最大,为预设相似度阈值;

若相同边 存在,则更新 图中 的重复度和权重,重复度和权重均加1;

若相同边 不存在但存在最相似边 ,则更新 图中的重复度和权重,重复度加1,权重加上相似度值 ;

若 和 都不存在,则在 的边集合 中添加边,边的重复度和权重均置为1;

重复迭代,直至领域候选本体图 中的所有边处理完成。

8.如权利要求1所述的一种领域本体构建方法,其特征在于,所述得到最终的领域本体图 ,具体包括:初始化领域本体图 为空图;

对合并后的领域候选本体图 的结点集合 中的每个结点 计算其置信度 ,其中 为结点 的重复度, 为结点 的权重值, 为大模型个数;

对图 的边集合 中的每条边 计算其置信度,其中

为边 的重复度, 为边 的权重值, 为大模型个数,为边 所对应主体结点的置信度, 为边 所对应客体结点的置信度;

对结点集合 中所有结点按置信度由高到低排序,按置信度由高到低依次扫描结点集合 中每个结点;若满足置信度要求则添加该结点,选择依附于该结点的满足置信度要求的边和邻接点,将满足置信度要求的结点和边添加至最终的领域本体图。

9.如权利要求8所述的一种领域本体构建方法,其特征在于,所述将满足置信度要求的结点和边添加至最终的领域本体图 ,具体包括:按置信度由高到低扫描结点集合 中每个结点 ,判断其置信度是否大于设定阈值 ;

如果不成立,则领域本体图 构建结束;

如果成立,首先在领域本体图 中添加结点 ;随后依次扫描依附于结点 的每一条边 ,判断其置信度是否大于设定阈值 ;如果成立,则在领域本体图 中添加边 和该边所依附的另一结点;

重复迭代,直至依附于结点 的所有边扫描结束;

继续扫描结点集合 中下一个结点,直至所有满足置信度要求的结点扫描结束,由添加的所有结点和边,共同组成最终的领域本体图 。