利索能及
我要发布
收藏
专利号: 2023116292507
申请人: 成都信息工程大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-05-14
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种面向中文文本的端到端中文实体关系联合抽取方法,其特征在于,包括以下步骤:S1、对输入的中文文本进行全词掩蔽处理,根据处理后的中文文本优化中文预训练模型,并利用优化后的中文预训练模型对输入的中文文本进行编码处理,生成中文文本的文本表示;

S2、对中文文本的文本表示进行包括上下文特征提取和BIO序列标注的实体解码处理,得到实体BIO标注序列和上下文表示向量;

S3、根据实体BIO标注序列和上下文表示向量,以及中文文本的文本表示,采用上下文注意力机制确定上下文注意力向量;包括以下步骤:S31、采用上下文注意力机制,将上下文表示向量作为查询向量,中文文本的文本表示作为键向量,中文文本的文本表示的转置矩阵作为值向量,计算相关度矩阵;相关度矩阵的计算公式为:T

S=q×H

T

其中,S表示相关度矩阵,q表示上下文表示向量,H 表示中文文本的文本表示的转置矩阵;

S32、对相关度矩阵进行softmax操作,得到相关度权重;

S33、根据相关度权重对所有中文文本的文本表示进行加权求和,得到上下文注意力向量;上下文注意力向量的计算公式为:C=∑α×H

其中,C表示上下文注意力向量,α表示相关度权重,H表示中文文本的文本表示;

S4、将上下文注意力向量与中文文本的文本表示拼接后进行关系编码处理,得到关系编码表示;包括以下步骤:S41、将上下文注意力向量与中文文本的文本表示拼接,得到融合后的编码序列;

S42、将融合后的编码序列输入双向长短期记忆网络层进行关系建模,得到初始关系编码表示;

S43、将初始关系编码表示输入一个多头自注意力层,通过注意力学习关系的全局依赖,得到增强关系表示;

S44、将初始关系编码表示与增强关系表示通过残差连接,得到增强关系编码表示;

S45、对增强关系编码表示进行层规范化,得到最终的关系编码表示;

S5、根据关系编码表示,采用双仿射注意力机制进行关系解码处理,得到实体关系抽取结果;包括以下步骤:S51、将关系编码表示拆分成两个等长向量,作为双仿射注意力的输入矩阵;

S52、将两个等长向量输入定义的双仿射注意力层,得到二维关系得分矩阵;

S53、对二维关系得分矩阵进行softmax操作,得到关系概率矩阵;

S54、通过argmax操作选择每个行最大值所在的列索引,作为关系预测标签;

S55、根据行索引,还原实体对;并根据列索引,还原关系类型,最终输出关系三元组<实体1,关系,实体2>。

2.根据权利要求1所述的一种面向中文文本的端到端中文实体关系联合抽取方法,其特征在于,步骤S1包括以下步骤:S11、对输入的中文文本进行中文分词,确定中文文本中的词语个数;

S12、根据中文文本中的词语个数对分词后的中文文本进行全词掩蔽处理;

S13、将处理后的中文文本输入中文预训练模型进行掩蔽词预测任务,得到掩蔽词预测平均损失,优化中文预训练模型的编码层;

S14、利用优化后的中文预训练模型的编码层对输入的中文文本进行编码处理,生成中文文本的文本表示。

3.根据权利要求2所述的一种面向中文文本的端到端中文实体关系联合抽取方法,其特征在于,步骤S12包括:随机选取中文文本中15%个数的词语,采用预设掩蔽策略进行三次全词掩蔽;所述掩蔽策略为:80%的概率替换为MASK标记,10%的概率替换为随机词,10%的概率不做处理保持原状。

4.根据权利要求1所述的一种面向中文文本的端到端中文实体关系联合抽取方法,其特征在于,步骤S13包括:将处理后的中文文本输入中文预训练模型进行设定次数的掩蔽词预测任务,根据各次预测的损失函数计算掩蔽词预测平均损失,根据掩蔽词预测平均损失优化中文预训练模型的编码层。

5.根据权利要求1所述的一种面向中文文本的端到端中文实体关系联合抽取方法,其特征在于,步骤S2包括以下步骤:S21、将中文文本的文本表示输入双向长短期记忆网络层,得到上下文表示;

S22、将上下文表示输入一个线性层对其维度进行压缩,得到低维的向量表示;

S23、将低维的向量表示输入至CRF层进行BIO序列标注,得到实体BIO标注序列;

S24、将实体BIO标注序列输入标注压缩层,得到固定长度且包含上下文信息的上下文表示向量。