利索能及
我要发布
收藏
专利号: 2022102247022
申请人: 南京信息工程大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-30
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于NLP与触发器的实体从属关系抽取识别方法,其特征在于,包括:根据训练文本的上下文语段,获取训练文本中自定义多类实体及实体列表;

根据实体列表,通过聚类处理得到实体从属关系;

批量输入不同的训练文本到预构建的触发器中进行去重处理,得到校正的实体和实体列表;

对得到的校正实体分别进行多路匹配,记录实体之间的关系标签属性,生成样本数据集;

根据样本数据集,将待识别文本作为输入,依次经过双向长短期记忆神经网络模型和注意机制进行关系抽取,输出待识别文本的实体从属关系;

所述批量输入不同的训练文本到预构建的触发器中进行去重处理,得到校正的实体和实体列表;具体包括:触发器的构建首先确定事件触发词trigger=ern={t1,t2,t3,.....tn},还需要设置触发词的对应事件触发要素argument={a1,a2,a3,.....an};所述触发要素包括单一句子中同时至少包含两类不同的ern以及相邻两句中至少含有两类不同的ern;

t

在触发要素下初步筛选出含有实体句子中,有一个当前的输入x,和上一个节点传递下t‑1 t t‑1来的隐状态h ,这个隐状态包含了之前节点的相关信息;结合x和h ,命名体识别中门循t环单元会得到当前隐藏节点的输出y和传递给下一个节点的隐状态ht;

t‑1 t

通过上一个传输下来的状态h 和当前节点的输入x来获取两个门控状态,计算表达式如下:r t‑1 t

r=δ(w[h ,x])

式中r为控制重置门,δ为sigmoid函数,通过这个函数将数据变换为0‑1范围内的数值,t‑1 t r从而来充当门控信号;h 为上一个传输下来的状态,x为当前输入的节点,w 为相应的权重t‑1 t t‑1 t矩阵,[h ,x]将h 和x按行叠加起来;

获得控制更新门Z,计算表达式如下:

z t‑1 t

z=δ(w[h ,x])

式中z为控制更新门,δ为sigmoid函数,通过这个函数将数据变换为0‑1范围内的数值,t‑1 z从而来充当门控信号;h 为上一个传输下来的状态,xt为当前输入的节点,w 为相应的权重t‑1 t t‑1 t矩阵,[h ,x]将h 和x按行叠加起来;

当得到门控信号之后,首先使用重置门控来得到重置之后的数据,计算表达式如下:t‑1′ t‑1

式中h 为在将要传递到一下时刻上含有的信息,h 为上一个传输下来的状态, 为Hadamard Product,也就是操作矩阵中对应的元素相乘,因此要求两个相乘矩阵是同型,r为重置门;

将存储信息进行更新数据,在这个阶段,同时进行了遗忘和记忆两个步骤,使用先前得到的控制更新门z,更新数据表达式如下:t t‑1

式中h表示时间t时隐藏层的状态,z为控制更新门,h 为上一个传输下来的状态, 为操作矩阵中对应的元素相乘,(1‑z)代表输入门,h′为传递到下一时刻存储的状态信息;

表示对原本隐藏状态的选择性遗忘, 表示对包含当前节点信息的h′进行选择性记忆;

批量输入不同的训练文本,通过所述触发器识别出实体,加上聚类传递将关系列举到实体之后,并去除形重复的实体节点,输出得到校正的实体及关系表。

2.根据权利要求1所述的基于NLP与触发器的实体从属关系抽取识别方法,其特征在于,所述根据训练文本的上下文语段,获取文本中自定义多类实体及实体列表;具体包括:分析训练文本内容上下文语段,获取训练文本语句中自定义多类实体的实体列表:ER={er1,er2,...,erN}

式中,er1表示第一个种类的实体列表,er2表示第二个种类的实体列表,erN表示第N个种类的实体列表;

ER中第n个种类的实体列表的元组表示为

ern=(timn,geon,natn,orgn,pern),1≤n≤N,式中,timn代表实体存在时间,geon代表所发现实体的地理位置,natn代表ern中对应的实体名称,orgn代表发现实体的组织,pern代表该实体的发现者;

对实体列表数据集进行关系定义:

Relationship={ER1,R1,ER2,ER3,R2,ER4,...,ERn,ERn,ERn+1},n>1,式中,ERn代表实体列表数据集中第n个实体,ERn+1代表实体数据集中第n+1个实体,Rn代表关联ERn和ERn+1的第n个关系,R中第n个关系的实体列表的元组表示为rn=(nat‑timn,nat‑includen,nat‑propertyn,nat‑unknown),其中1≤n≤N,其中nat‑timn代表实体与实体之间存在时间关系,nat‑includn代表实体与实体之间存在从属关系,nat‑propertyn代表实体与实体之间存在属性值关系,nat‑unknown代表实体与实体之间没有任何关系。

3.根据权利要求1所述的基于NLP与触发器的实体从属关系抽取识别方法,其特征在于,所述根据实体列表,通过聚类处理得到实体从属关系;具体包括:通过实体列表来推断其父类节点,并且推断出所有父类组合路线,同时计算出多种父类组合中最佳的路径,最终确定该父类实体;利用实体列表中所含词语出现的频率进行加权处理,当输入实体组合中全部在实体列表中出现时则最大比值为1,其最终词频F表达式为:F=tf(d,w)*idf(w)

tf(d,w)=w/d

idf(w)=log(N/N(w))

式中,tf(d,w)是每一个实体列表子列d中词语w的词频;idf(w)是逆子列频次;w为在子列中d中出现的次数,d为子列的总词语数;N是实体列表所有的总列表数,N(w)是包含词语w的列表数总和。

4.根据权利要求1所述的基于NLP与触发器的实体从属关系抽取识别方法,其特征在于,触发器内嵌入命名体识别中门循环单元。

5.根据权利要求1所述的基于NLP与触发器的实体从属关系抽取识别方法,其特征在于,所述对得到的校正实体分别进行多路匹配,记录实体之间的关系标签属性,生成样本数据集;具体包括:将最终得到的实体进行多路匹配形成样本数据集,表示为Dataset={sentence,erm,ern,rn},sentence代表还有实体句子,erm,ern分别为实体列表元组的某一种类,rn表示erm,ern之间的关系。

6.根据权利要求1所述的基于NLP与触发器的实体从属关系抽取识别方法,其特征在于,所述根据样本数据集,将待识别文本作为输入,依次经过双向长短期记忆神经网络模型和注意机制进行关系抽取,输出待识别文本的实体从属关系;具体包括:将待识别文本输入到双向长短期记忆神经网络模型中,所得输出继续输入到注意力机制中,最终根据样本数据集匹配输出待识别文本实体从属关系的关系抽取结果;对于每个输入标签ERn终会得到与之对应的输出标签PLn,预测输入ERn的连续正确的概率为Score(ERn,PLn),Score(ERn,PLn)的表达式如下:式中,R表示训练数据集中总数为R个标签, 为对于第i个输入标签ERi输出为PLi的概率,A(PLi,PLi+1)为从PLi到PLi+1的转移概率;

求出所有输入标签ERn的连续正确概率Score(ERn,PLn),利用维特比算法对输入标签ERn及输出标签PLn进行概率归一化处理P(PLn|ERn),其中概率归一化处理P(PLn|ERn)表达式如下:式中, 表示预测第i个输入标签ERi的连续正确概率的指数值, 表示为对于第i个输入标签ERi,得到错误的输出标签率, 表示错误预测输入标签ERi的连续概率的指数值。

7.一种基于NLP与触发器的实体从属关系抽取识别系统,其特征在于,包括:自定义实体模块:用于根据训练文本的上下文语段,获取训练文本中自定义多类实体及实体列表;

第一处理模块:用于根据实体列表,通过聚类处理得到实体从属关系;

第二处理模块:用于批量输入不同的训练文本到预构建的触发器中进行去重处理,得到校正的实体和实体列表;

第三处理模块:用于对得到的校正实体分别进行多路匹配,记录实体之间的关系标签属性,生成样本数据集;

识别模块,用于根据样本数据集,将待识别文本作为输入,依次经过双向长短期记忆神经网络模型和注意机制进行关系抽取,输出待识别文本的实体从属关系;

所述批量输入不同的训练文本到预构建的触发器中进行去重处理,得到校正的实体和实体列表;具体包括:触发器的构建首先确定事件触发词trigger=ern={t1,t2,t3,.....tn},还需要设置触发词的对应事件触发要素argument={a1,a2,a3,.....an};所述触发要素包括单一句子中同时至少包含两类不同的ern以及相邻两句中至少含有两类不同的ern;

t

在触发要素下初步筛选出含有实体句子中,有一个当前的输入x,和上一个节点传递下t‑1 t t‑1来的隐状态h ,这个隐状态包含了之前节点的相关信息;结合x和h ,命名体识别中门循t环单元会得到当前隐藏节点的输出y和传递给下一个节点的隐状态ht;

t‑1 t

通过上一个传输下来的状态h 和当前节点的输入x来获取两个门控状态,计算表达式如下:r t‑1 t

r=δ(w[h ,x])

式中r为控制重置门,δ为sigmoid函数,通过这个函数将数据变换为0‑1范围内的数值,t‑1 t r从而来充当门控信号;h 为上一个传输下来的状态,x为当前输入的节点,w 为相应的权重t‑1 t t‑1 t矩阵,[h ,x]将h 和x按行叠加起来;

获得控制更新门Z,计算表达式如下:

z t‑1 t

z=δ(w[h ,x])

式中z为控制更新门,δ为sigmoid函数,通过这个函数将数据变换为0‑1范围内的数值,t‑1 z从而来充当门控信号;h 为上一个传输下来的状态,xt为当前输入的节点,w 为相应的权重t‑1 t t‑1 t矩阵,[h ,x]将h 和x按行叠加起来;

当得到门控信号之后,首先使用重置门控来得到重置之后的数据,计算表达式如下:t‑1′ t‑1

式中h 为在将要传递到一下时刻上含有的信息,h 为上一个传输下来的状态, 为Hadamard Product,也就是操作矩阵中对应的元素相乘,因此要求两个相乘矩阵是同型,r为重置门;

将存储信息进行更新数据,在这个阶段,同时进行了遗忘和记忆两个步骤,使用先前得到的控制更新门z,更新数据表达式如下:t t‑1

式中h表示时间t时隐藏层的状态,z为控制更新门,h 为上一个传输下来的状态, 为操作矩阵中对应的元素相乘,(1‑z)代表输入门,h′为传递到下一时刻存储的状态信息;

表示对原本隐藏状态的选择性遗忘, 表示对包含当前节点信息的h′进行选择性记忆;

批量输入不同的训练文本,通过所述触发器识别出实体,加上聚类传递将关系列举到实体之后,并去除形重复的实体节点,输出得到校正的实体及关系表。

8.一种基于NLP与触发器的实体从属关系抽取识别装置,其特征在于,包括处理器及存储介质;

所述存储介质用于存储指令;

所述处理器用于根据所述指令进行操作以执行根据权利要求1~6任一项所述方法的步骤。

9.计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1~6任一项所述方法的步骤。