利索能及
我要发布
收藏
专利号: 2024114289294
申请人: 浙江理工大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.基于领域文本分类的知识抽取和知识融合方法,其特征在于,包括按如下步骤:S1.构建领域知识文本数据集;

S2.构建基于ChatGPT的领域知识抽取框架,抽取步骤S1中领域知识文本数据集所蕴含的领域知识;

S3.构建基于对比学习和词分类的多任务学习知识融合框架,将步骤S2中获取的领域知识与深度语言模型进行融合;

步骤S3中,根据步骤S2获取的领域知识的格式,构建基于对比学习和词分类的多任务学习知识融合框架,该框架包含三个学习任务:全词掩码任务、词对比学习任务以及词分类任务;全词掩码任务将随机掩码任务的掩码单位由字改为词;

步骤S3中,词对比学习任务的具体如下:

在全词掩码任务的基础上,给出句子A{x1,x2,x3,x4,x5,x6,x7},将x4与x5掩码掉得到句子A1{x1,x2,x3,[MASK],x6,x7},将词汇{x4,x5}的模型输出向量作为A1句子对应掩码输出向量的正样本,将同一个批次数据中的其他词汇作为A1句子对应掩码输出向量的负样本;其中,对比学习损失函数的计算公式如下:式中:为 , 表示训练同一个批次中[MASK]的数量, 表示第i个[MASK]通过模型表示的文本表征向量; 为 , 表示第i个[MASK]对应的真实标签通过模型表示的文本表征向量,即 的正样本向量表示;为设置的超参数; 表示计算 和 两个向量的余弦相似度,计算公式如下:;

步骤S3中,词分类任务的具体如下:

在全词掩码任务的基础上,给出句子A{x1,x2,x3,x4,x5,x6,x7},将x4与x5掩码掉得到句子A1{x1,x2,x3,[MASK],x6,x7},将[MASK]的输出向量作为分类层的输入,同时将步骤S2得到的{x4,x5}分类类别信息作为分类标签计算词分类任务损失;其中,词分类任务损失函数的计算公式如下:式中, 表示分类的类别数量,表示当前数据的真实标签向量,维度为1× , 表示该数据第i个维度的真实标签值,表示当前数据的预测标签向量,即该数据通过模型以及分类层之后的分类向量, 表示该数据第i个维度的预测标签值。

2.如权利要求1所述基于领域文本分类的知识抽取和知识融合方法,其特征在于,步骤S1中,领域知识文本数据集的构建包括以下步骤:S1.1、原始语料构建,使用词条和对应的摘要文本作为原始语料来源;

S1.2、原始语料分类,根据词条的类别定义划分摘要文本的类别,并进行类别合并;

S1.3、原始词表构建,对获取的知识文本进行分词,并统计出现高于设定频率的词汇构建原始词表。

3.如权利要求2所述基于领域文本分类的知识抽取和知识融合方法,其特征在于,在步骤S1.2中,根据所需要的领域构建领域常见关键词和常见类别,利用常见关键词和常见类别从原始未分类的数据中抽取领域相关的数据文本。

4.如权利要求2所述基于领域文本分类的知识抽取和知识融合方法,其特征在于,在步骤S1.3中,为了获取原始词表的同时筛选停用词,需要设置出现频率阈值和停用词词表;首先计算初始出现频率阈值,根据初始出现频率阈值筛选词表;后构建停用词词表,包括默认长度为1的词汇为停用词和利用收集并构建的停用词表;最后利用停用词词表筛选原始词表,根据筛选后的词表大小选择是否需要降低出现频率阈值以增加原始词表大小,如果词表大小符合要求即构建完毕,否则降低出现频率阈值增加原始词表大小;其中,初始出现频率阈值的计算公式如下:词表大小的评判标准的计算公式如下:

式中:为原始语料字符数量, 为原始语料句子数量, 为公开词表的平均词汇长度,为估计的词汇在整个句子中的平均占比权重, 为词表集合, 为词表大小, 为词的出现频率, 为词表中第 个词的长度,为期望的词汇在整个句子中的平均占比权重。

5.如权利要求1所述基于领域文本分类的知识抽取和知识融合方法,其特征在于,步骤S2中,知识抽取具体如下:S2.1、在步骤S1构建的词表基础上,利用ChatGPT对该词表进行筛选,将与领域高度相关的词汇筛选出来;

S2.2、在步骤S2.1筛选出的领域词表基础上,利用ChatGPT对该领域词表进行领域内细分分类;

S2.3、对分类类别进行合并整合;

S2.4、利用步骤S2.3获得的领域内分类类别对ChatGPT进行约束,利用该约束对领域词表进行重新分类。

6.如权利要求1所述基于领域文本分类的知识抽取和知识融合方法,其特征在于,步骤S3中,多任务学习知识融合框架的总损失函数的计算公式如下:先从全词掩码任务获取全词掩码损失 ,后从词对比学习任务获取对比学习损失,最后从词分类任务获取分类损失 。

7.基于领域文本分类的知识抽取和知识融合系统,用于执行如权利要求1‑6任一项所述的方法,其特征是包括如下模块:数据集构建模块:构建领域知识文本数据集;

抽取模块:构建基于ChatGPT的领域知识抽取框架,抽取领域知识文本数据集所蕴含的领域知识;

融合模块:构建基于对比学习和词分类的多任务学习知识融合框架,将获取的领域知识与深度语言模型进行融合。