利索能及
我要发布
收藏
专利号: 2020100580182
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-30
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种实体关系的抽取方法,其特征在于,所述方法包括以下步骤:

1)利用外部的自然语言处理工具获取终端或服务器提供的每条语料的句法信息,包括词性标注、句法成分分析以及依存分析;

2)对每条语料进行预处理,将预处理后的语料输入到BERT模型中;获取每条语料的序列特征向量和语料中每个字的实值特征向量;

3)利用步骤1)获取的词性标注和句法成分,获取包含实体对的完整短句,利用词向量模型将所述完整短句中每个字与实体对中两个实体各自的依存关系映射为实值向量;

步骤301)根据步骤1)的句法成分分析结果,去除句子中与关系标签语义无关的成分结构短语,得到包含实体对的完整句子;

步骤302)在所述包含实体对的完整句子上,利用步骤1)获取的词性标注去除句子中与关系标签语义无关的词语,得到最短的完整短句;

步骤303)利用词向量模型将所述完整短句中每个字与实体对中两个实体各自的依存关系映射为第一实值向量wie1和第二实值向量wie2;

4)在步骤3)的基础上采用基于依存分析的字级别的注意力机制,获取局部上下文语义特征向量;

步骤401)将完整短句中n个字分别对应的隐藏向量w1,w2,...wn输入到注意力机制模型中;使用前馈神经网络,基于每个字与实体对的依存关系,计算每个字与实体对之间的语义关联度,语义关联度的计算公式如下:gi=tanh(W[wi;wie1;wie2]+b);

其中,gi表示第i个字与实体对的语义关联度;wi为第i个字的隐藏向量,wie1为第i个字和第一实体之间的依存关系所映射的实值向量,wie2为第i个字和第二实体之间的依存关系所映射的实值向量;

步骤402)将每个字与实体对之间的语义关联度g1,g2,...gw依次输入到softmax激励函数,得到最终实体上下文字的权重α1,α2,...αw,计算权重表示为步骤403)采用字级别的注意力机制,将各个字对应的隐藏向量通过加权求和的方式求取出局部上下文语义特征向量H,表示为

5)获得实体对的平移距离特征向量,将各个特征向量进行融合,从而抽取出的实体关系的多粒度特征;

步骤501)实体由一个或者多个字组成,通过计算BERT输出的实体中各个字向量的平均值得到实体对向量,即第一实体向量e1和第二实体向量e2;

步骤502)计算实体对的平移距离特征向量H1=(e1‑e2);

步骤503)将语料序列特征向量H0、局部上下文语义特征向量H和实体对的平移距离特征向量H1进行拼接,并将拼接向量的多粒度特征作为抽取出的实体关系特征;

其中,获得第一实体向量和第二实体向量表示如下:

Hi表示BERT输出的第一实体的开始向量,Hj表

示BERT输出的第一实体的终止向量,Hk表示BERT输出的第二实体的开始向量,Hm表示BERT输出的第二实体的终止向量;

6)将抽取出的实体关系的多粒度特征输入到分类器中进行分类,获取该实体关系特征所属的标签。

2.根据权利要求1所述的一种实体关系的抽取方法,其特征在于,所述步骤2)包括:步骤201)在实体对中第一实体的前后分别添加第一字符;

步骤202)在实体对中第二实体的前后分别添加第二字符;

步骤203)将预处理后的语料输入到BERT模型中,输出每条语料的序列特征向量H0,以及每条语料中m个字的实值特征向量H1,H2,...,Hm;

其中,m个实值特征向量H1,H2,...,Hm为语料中每个字的隐藏向量。

3.根据权利要求1所述的一种实体关系的抽取方法,其特征在于,所述步骤503中,将各个特征向量进行拼接前,还将各个特征向量包括语料序列特征向量H0、局部上下文语义特征向量H和实体对的平移距离特征向量H1;采用非线性转换,从而获取更多的潜在特征;所述非线性转换包括经过tanh激活和线性变换。

4.根据权利要求1所述的一种实体关系的抽取方法,其特征在于,所述步骤6)包括将融合的多粒度特征送进全连接层,再将全连接层的输出送入Softmax分类层进行关系分类。

5.一种实体关系的抽取装置,用于实现如权利要求1至4中任意一项所述方法中的步骤,其特征在于,包括:语料获取模块,用于获取多条语料,所述多条语料中携带有词性标注、句法信息以及依存分析;

预处理模块,用于对所述多条语料进行预处理;

BERT模型模块,用于获取每条语料的序列特征向量和语料中每个字的实值特征向量;

短句获取模块,用于获取包含实体对的完整短句;

词向量模型模块,用于将获取的完整短句中字与实体间的依存关系映射为实值向量;

注意力机制模块,用于基于依存关系所映射的实值向量,采用注意力机制,获取局部上下文语义特征向量;

实体对平移特征模块,用于获取实体对的平移距离特征向量;

多粒度特征融合模块,用于语料序列特征向量、局部上下文语义特征向量和实体对的平移距离特征向量进行融合;

分类器,用于对融合后的多粒度特征进行分类。

6.一种实体关系的抽取设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4中任意一项所述方法中的步骤。

7.一种实体关系的存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至4任意一项所述方法中的步骤。