利索能及
我要发布
收藏
专利号: 2021106529748
申请人: 电子科技大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-17
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种面向领域关系抽取的标注语料生成方法,包括模型训练和语料生成两个阶段;

其特征在于,

A.模型训练,包括以下步骤:

A1.标记实体名;

A1‑1.创建一个初始为空的领域实体名集合U;

A1‑2.收集领域内的实体名称,并其将添加到领域实体名集合U中;

A1‑3.采用中文分词工具对输入的训练句子p进行分词处理,得到分词结果wi,i=1,

2,...,Nw、Nw为分词得到的词的总个数;

A1‑4.从前往后依次考察p中的每一个词wi,判断wi是否存在于领域实体名集合U中,若存在,则标记wi为实体名并对标记的实体名计数,共标记了Nn个实体名;

A2.生成同义句;

A2‑1.预设Nn个替换符号、记为mj,j=1,2,...,Nn;

A2‑2.复制一个与p相同的句子、记为p';

A2‑3.将p'中的每一个实体名nj(j=1,2,...,Nn)替换为替换符号mj,并记录下nj与mj的替换关系;

A2‑4.使用标准回译法对p'进行回译,得到p'的同义句、记为q';

A2‑5.搜寻q'中的每一个替换符号,并将其按照步骤A2‑3记录的替换关系替换回该符号所对应的实体名;

A3.生成掩蔽句子对;

A3‑1.对p进行依存句法分析,得到其中每一个实体名的依存关系和相应主动被动语态;

A3‑2.对p中的每一个实体名nj(j=1,2,...,Nn)作判断,若当前nj的依存关系属于主谓关系、动宾关系、间宾关系、前置宾语、介宾关系、并列关系和定中关系中的一种,则作:A3‑2‑1.复制一个与p相同的句子、记为p”,并复制一个与q'相同的句子、记为q”;

A3‑2‑2.判断nj在当前依存关系下的主动被动语态,若nj为主动语态,则将p”和q”中的nj均替换预设的主动掩蔽符号Za,否则将p”和q”中的nj均替换预设的被动掩蔽符号Zp;

A3‑2‑3.将替换后的p”和q”组成掩蔽句子对,并将其作为序列生成模型的训练语料加入到训练语料库L中;

A4.训练模型;

使用训练语料库L,对通用的序列生成预训练模型进行微调,得到最终的序列生成模型;

B.语料生成,包括以下步骤:

输入数据为关系抽取模型所用的已标注的训练语料,每条语料为一个四元组,其形式为(e1,e2,r,s),其中,e1表示第一个实体的实体名,e2表示第二个实体的实体名,r表示第一个实体和第二个实体间的关系,s表示训练句子;

B1.掩蔽实体;

B1‑1.在输入四元组的句子s中标记实体名e1和e2;

B1‑2.对句子s进行依存句法分析,得到e1和e2的依存关系和相应主动被动语态;

B1‑3.若e1为主动语态,则将s中的e1和e2分别替换为Za和Zp,否则将s中的e1和e2分别替换为Zp和Za,替换完毕记录e1、e2与Za、Zp的替换关系;

B2.序列生成:

B2‑1将s输入到步骤A4得到的序列生成模型中,从模型预测出的序列中,选择预测概率最大的前k个序列作为候选序列;

B2‑2.从候选序列中筛选出同时包含Za和Zp的序列作为输出序列;

B3.恢复掩蔽实体:对每一个输出序列s',将其中的符号Za和Zp按照步骤B1‑3记录的替换关系替换回相应符号所对应的实体名;

B4.生成四元组:对每一个恢复掩蔽实体后的输出序列s',生成并输出四元组(e1,e2,r,s')。

2.按权利要求1所述的一种面向领域关系抽取的标注语料生成方法,其特征在于,所述步骤A2‑1中,替换符号由重复的大写英文字母组成。

3.按权利要求1所述的一种面向领域关系抽取的标注语料生成方法,其特征在于,所述步骤A3‑2‑2中,预设的主动掩蔽符号Za为<>,被动掩蔽符号Zp为[]。

4.按权利要求1所述的一种面向领域关系抽取的标注语料生成方法,其特征在于,所述步骤B2中,k的取值范围为:1≤k≤3。