买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于解耦表征和异构图软硬注意力网络的消歧方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于解耦表征和异构图软硬注意力网络的消歧方法

面议

专利号： 2022111282792

申请人：燕山大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-06-16

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于解耦表征和异构图软硬注意力网络的消歧方法，其特征在于，包括以下步骤：S1、数据清洗及预处理，将论文数据存入非结构化数据库MongoDB，删除数据中的重复值，按照一定规则对缺失值进行补全，同时对命名不一致的属性进行一致化处理；

S2、论文实体表征学习，使用语言预训练模型OAG_BERT获得论文的初步表征；

S3、解耦表征，使用变分自编码模型加正则化项的方式对论文表征进行特征解耦；

S4、以准确率为原则，对论文进行初始化聚类；

S5、异构图实体对齐，构建论文和作者信息异构图，采用软、硬注意力网络对异构图进行实体对齐；

所述S5包括：

S51、为名称相同的作者实体生成候选对；

S52、对于每一个作者实体，构建异构图，如果候选对之间的机构、合著者名称相同或者论文相似，则相互连接，得到异构图G(V,E)；

S53、利用异构图软硬注意力网络确定作者实体匹配；

所述S53包括：

S531、通过S3得到每一个论文实体的语义嵌入，构建异构图进行训练，得到每个实体的结构嵌入；

S532、将语义嵌入和结构嵌入两种嵌入合并在一起作为输入特征f，通过self_attention求出不同作者实体e之间的重要性，此过程描述为：tij＝self_attention(Wfi,Wfj)其中，W为共享的权重矩阵，对于每一个为ei的所有邻居节点；其中归一化注意力系数如下：

为可训练参数；

S533、实体e的最终表示是其聚合邻居特征的结果，此过程表示为：其中，σ为激活函数，为ei的邻居节点；

S534、为了解决注意力值的非零问题，提出结合硬注意力的方式聚合特征：其中，是实体e的邻居节点个数，|E1|是簇1中所有的实体，是含有临边(hi,ri)的实体数量；

S54、最终实体及损失函数为：

HGAT hard

efinal＝(LeakReluW(e ||e ))HGAT hard

其中，e 为异构图自注意力网络聚合的实体e的表示，e 为异构图硬注意力机制聚合的实体e的表示；

其中，d为欧式距离，η为margin值以保证loss值大于0；

S6、获得论文消歧结果。

2.根据权利要求1所述的一种基于解耦表征和异构图软硬注意力网络的消歧方法，其特征在于，所述S2包括：S21、使用语言预训练模型OAG_BERT获取论文表征：其中，表示为论文作者名称为a的论文i，为该论文对应的向量表示；

S22、构造正例对构造反例对并对正例对和负例对进行组合；

S23、引入训练的目标函数h＝f(bert(x)),训练的目标损失li为：其中，N是最小batch size，τ是超参数，sim(h1，h2)是余弦相似度；

S24、经过训练后得到论文作者名称表征向量

3.根据权利要求1所述的一种基于解耦表征和异构图软硬注意力网络的消歧方法，其特征在于，所述S3包括：S31、将论文作者名称表征向量输入变分自编码模型，变分自编码器VAE中，通过训练获得表征向量z，loss函数为：F(θ,φ,β；emb,z)≥L(θ,φ；emb,z,β)＝Eqφ(z|emb)[logpθ(emb|z)]‑βDKL(qφ(z|emb)||p(z))其中，θ,φ为模型参数，β是控制解耦程度的超参数，z为隐向量；

S32、调整超参数β，获得最佳的实体解耦表征z，所述解耦量化指标具体为：其中，L为采样个数，为第l个采样样本与其固定单个维度的变换后样本之间的绝对值。

4.根据权利要求1所述的一种基于解耦表征和异构图软硬注意力网络的消歧方法，其特征在于，所述S4包括：S41、将聚类过程作为消歧的初始过程，以准确率为原则，按照距离指标将论文划分成更多的簇；

S42、通过LightGBN模型进行向量聚类，构建作者实体簇候选集；

S43、提出指标Recallover‑merge去描述聚类结果的过合并现象，所述指标Recallover‑merge为：其中，TP表示两个同一作者论文在同一个簇中的情况数量；FN表示两个同一作者论文分别在两个簇中的情况数量；M为理想聚类结果数，N为实际聚簇结果数；Recallover‑merge值越高聚类所带来的过拆分程度就越低。

5.根据权利要求1所述的一种基于解耦表征和异构图软硬注意力网络的消歧方法，其特征在于，所述S6包括：S61、按照排列组合的规则生成无重复的作者实体Pairs,构建异构图；

S62、使用预先训练好的iHGAT框架去检测一组pair是否从属于一个作者；

S63、通过给出对齐规则对论文簇进行对齐；

S631、计算每个节点的邻边节点，取两两节点的相似度得分最高的一组边进行连接；

S632、在所有节点都进行判定后，使用dfs实现联通子图算法，得出对齐规则，并进行合并；

S64、过程需要进行多次，次数定义为loops，最终得出的簇集合为最后的消歧结果。