利索能及
我要发布
收藏
专利号: 2022109840042
申请人: 金陵科技学院
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种开放域语料关系联合抽取方法,其特征在于,包括以下步骤:

S1、提取语料中字符的特征向量:将语料输入至BERT预训练语言模型中对语料进行编码,并得到语料中字符的特征向量;

h0=SWs+Wp(1)

hα=Trans(hα‑1),α∈[1,N](2)

其中,S代表输入的句子中词的one‑hot向量矩阵,Ws代表词嵌入矩阵,Wp代表位置嵌入矩阵,其中p表示输入句子中的位置索引;hα代表隐藏状态向量,即输入句子在第α层的上下文表示,N代表Transformer块的数量;

其中,公式(1)表示提取语料的特征向量;公式(2)表示隐藏状态向量,h0代表得到的语料特征向量;公式(1)、公式(2)是bert提取语料特征向量的具体体现,bert为通用模型;

S2、在图注意力网络中进行特征融合:基于图注意力网络将字符的特征向量中所包含的特征进行融合,并学习字符间的依赖关系;

S3、将语料中的关系短语进行抽取:通过设计关系短语序列标注模型抽取语料中存在的关系短语,其中关系短语的含义为语料句子中的谓语部分;

S4、将语料中的实体对短语进行抽取:由于关系短语的含义为语料句子中的谓语部分,因此每个关系短语都有对应的实体对短语,其中实体对短语包括首实体短语和尾实体短语,首实体短语的含义为语料句子中的主语,尾实体短语的含义为语料句子中的宾语;根据步骤S2的字符间依赖关系以及通过基于图注意力网络预测每个关系短语所对应的实体对短语,并进行抽取;

S5、根据步骤S3抽取的关系短语以及步骤S4抽取对应的实体对短语,将其组成三元组,并确定该三元组的置信度,若置信度大于或等于设定置信度阈值时,则将该三元组作为输入语料的开放域关系三元组。

2.根据权利要求1所述的一种开放域语料关系联合抽取方法,其特征在于,步骤S2中所述学习字符间的依赖关系的具体计算公式为:式中, 表示第i个字符在第t层的隐层状态向量,其体现了字符间的依赖关系; 表示第i个字符在第t‑1层的隐层状态向量,σ表示为sigmoid激活函数,n表示输入语料的长度,t tMij表示为图注意力网络的依赖权重,W和b分别是图注意力网络的参数矩阵和偏置向量。

3.根据权利要求2所述的一种开放域语料关系联合抽取方法,其特征在于,步骤S3的具体内容为:S3.1、设计关系短语序列标注模型,以计算某一字符是关系短语的起始位置或结束位置的概率,该模型具体计算公式为:式中, 和 分别代表输入语料的序列中,第i个字符作为关系短语的开始位置和结束位置的概率,xi代表第i个词的编码序列,Wstart表示计算关系短语起始位置的权重,Wend表示计算关系短语结束位置的权重,bstart表示计算关系短语起始位置的偏差,bend表示计算关系短语结束位置的偏差,σ表示sigmoid激活函数;

S3.2、在步骤S3.1所计算的 和 中,若概率值大于概率阈值,则该位置设为1,反之设为0,以此确定关系短语的位置,实现语料中关系短语的抽取。

4.根据权利要求3所述的一种开放域语料关系联合抽取方法,其特征在于,步骤S4的具体内容为:步骤S4中根据步骤S2的字符间依赖关系以及通过基于图注意力网络预测每个关系短语所对应的实体对短语,并进行抽取的具体内容为:S4.1、设定在步骤S3中,所抽取出的某个关系短语,其在关系短语集合中的索引为λ,通过关系嵌入表示为向量hλ;

S4.2、将向量hλ和步骤S2求出的隐层状态向量 一起输入到解码器中,并通过图注意力网络处理获得融合卷积层特征的解码器输出;

S4.3、将步骤S4.2的输出输入到图注意力网络中的预测层,实现实体对短语中的首实体短语和尾实体短语的预测,并进行抽取。

5.根据权利要求4所述的一种开放域语料关系联合抽取方法,其特征在于,步骤S4.3中所述“实现实体对短语中的首实体短语和尾实体短语的预测,并进行抽取”的具体计算公式为:抽取的首实体短语位置计算公式如下:

式中, 表示抽取的首实体短语的起始位置概率值, 表示抽取的首实体短语的结束位置概率值, 表示抽取首实体短语起始位置权重, 表示抽取首实体短语结束位置权重, 表示抽取首实体短语起始位置偏差, 表示抽取首实体短语结束位置偏差,Gh表示经过图注意力网络处理的上下文特征;

抽取的尾实体短语位置计算公式如下:

式中, 表示抽取的尾实体短语的起始位置概率值, 表示抽取的尾实体短语的结束位置概率值, 表示抽取尾实体短语起始位置权重, 表示抽取尾实体短语结束位置权重, 表示抽取尾实体短语起始位置偏差, 表示抽取尾实体短语结束位置偏差,Gh表示经过图注意力网络处理的上下文特征。

6.根据权利要求1所述的一种开放域语料关系联合抽取方法,其特征在于,步骤S5中所述置信度阈值为0.8。