利索能及
我要发布
收藏
专利号: 2022111282792
申请人: 燕山大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于解耦表征和异构图软硬注意力网络的消歧方法,其特征在于,包括以下步骤:S1、数据清洗及预处理,将论文数据存入非结构化数据库MongoDB,删除数据中的重复值,按照一定规则对缺失值进行补全,同时对命名不一致的属性进行一致化处理;

S2、论文实体表征学习,使用语言预训练模型OAG_BERT获得论文的初步表征;

S3、解耦表征,使用变分自编码模型加正则化项的方式对论文表征进行特征解耦;

S4、以准确率为原则,对论文进行初始化聚类;

S5、异构图实体对齐,构建论文和作者信息异构图,采用软、硬注意力网络对异构图进行实体对齐;

所述S5包括:

S51、为名称相同的作者实体生成候选对;

S52、对于每一个作者实体,构建异构图,如果候选对之间的机构、合著者名称相同或者论文相似,则相互连接,得到异构图G(V,E);

S53、利用异构图软硬注意力网络确定作者实体匹配;

所述S53包括:

S531、通过S3得到每一个论文实体的语义嵌入,构建异构图进行训练,得到每个实体的结构嵌入;

S532、将语义嵌入和结构嵌入两种嵌入合并在一起作为输入特征f,通过self_attention求出不同作者实体e之间的重要性,此过程描述为:tij=self_attention(Wfi,Wfj)其中,W为共享的权重矩阵,对于每一个 为ei的所有邻居节点;其中归一化注意力系数如下:

为可训练参数;

S533、实体e的最终表示是其聚合邻居特征的结果,此过程表示为:其中,σ为激活函数, 为ei的邻居节点;

S534、为了解决注意力值的非零问题,提出结合硬注意力的方式聚合特征:其中, 是实体e的邻居节点个数,|E1|是簇1中所有的实体, 是含有临边(hi,ri)的实体数量;

S54、最终实体及损失函数为:

HGAT hard

efinal=(LeakReluW(e ||e ))HGAT hard

其中,e 为异构图自注意力网络聚合的实体e的表示,e 为异构图硬注意力机制聚合的实体e的表示;

其中,d为欧式距离,η为margin值以保证loss值大于0;

S6、获得论文消歧结果。

2.根据权利要求1所述的一种基于解耦表征和异构图软硬注意力网络的消歧方法,其特征在于,所述S2包括:S21、使用语言预训练模型OAG_BERT获取论文表征:其中, 表示为论文作者名称为a的论文i, 为该论文对应的向量表示;

S22、构造正例对 构造反例对 并对正例对和负例对进行组合;

S23、引入训练的目标函数h=f(bert(x)),训练的目标损失li为:其中,N是最小batch size,τ是超参数,sim(h1,h2)是余弦相似度;

S24、经过训练后得到论文作者名称表征向量

3.根据权利要求1所述的一种基于解耦表征和异构图软硬注意力网络的消歧方法,其特征在于,所述S3包括:S31、将论文作者名称表征向量输入变分自编码模型,变分自编码器VAE中,通过训练获得表征向量z,loss函数为:F(θ,φ,β;emb,z)≥L(θ,φ;emb,z,β)=Eqφ(z|emb)[logpθ(emb|z)]‑βDKL(qφ(z|emb)||p(z))其中,θ,φ为模型参数,β是控制解耦程度的超参数,z为隐向量;

S32、调整超参数β,获得最佳的实体解耦表征z,所述解耦量化指标具体为:其中,L为采样个数, 为第l个采样样本与其固定单个维度的变换后样本之间的绝对值。

4.根据权利要求1所述的一种基于解耦表征和异构图软硬注意力网络的消歧方法,其特征在于,所述S4包括:S41、将聚类过程作为消歧的初始过程,以准确率为原则,按照距离指标将论文划分成更多的簇;

S42、通过LightGBN模型进行向量聚类,构建作者实体簇候选集;

S43、提出指标Recallover‑merge去描述聚类结果的过合并现象,所述指标Recallover‑merge为:其中,TP表示两个同一作者论文在同一个簇中的情况数量;FN表示两个同一作者论文分别在两个簇中的情况数量;M为理想聚类结果数,N为实际聚簇结果数;Recallover‑merge值越高聚类所带来的过拆分程度就越低。

5.根据权利要求1所述的一种基于解耦表征和异构图软硬注意力网络的消歧方法,其特征在于,所述S6包括:S61、按照排列组合的规则生成无重复的作者实体Pairs,构建异构图;

S62、使用预先训练好的iHGAT框架去检测一组pair是否从属于一个作者;

S63、通过给出对齐规则对论文簇进行对齐;

S631、计算每个节点的邻边节点,取两两节点的相似度得分最高的一组边进行连接;

S632、在所有节点都进行判定后,使用dfs实现联通子图算法,得出对齐规则,并进行合并;

S64、过程需要进行多次,次数定义为loops,最终得出的簇集合为最后的消歧结果。