1.一种基于对比学习和异构图注意力网络的作者名称消歧方法,其特征在于:包括以下步骤:S1,数据预处理:使用MongoDB存取论文名称、作者、机构信息,使用python的字符处理库对数据进行清洗,去除噪声获得更加规范的文本,清洗成适用于后续步骤的数据;
S2,论文表征学习:使用对比学习对论文进行表征学习,获得论文的统一编码的嵌入;
具体包括:
S21,使用语言预训练模型BERT获取论文表征,此过程描述为:;
式中, 是作者a的第i篇论文, 是论文 对应的表征向量;
S22,构造正例对 ,构造负例对 ,并对正例和负例进行组合;
S23,引入训练的目标函数 ,训练的目标损失 描述为:;
式中,N为最小batch_size,是temperature超参数, 为余弦相似度;
S24,经过训练后最终得到论文的表示向量vi;S3,论文初步聚类:以纯度优先为原则对论文进行聚类,缓解论文过合并问题,得到论文簇;
S4,论文簇的对齐:对上一步得到的论文簇使用异构图注意力网络进行对齐;
S5,获得论文消歧结果:提出过拆分检测和过拆分对齐算法,保证论文消歧质量。
2.根据权利要求1所述的一种基于对比学习和异构图注意力网络的作者名称消歧方法,其特征在于:S3中,具体包括:S31,通过将聚类过程作为消歧的中间过程,按照规则将论文划分成更多的簇,降低同一簇中出现不同作者的情况;
S32,通过LightGBN和层次聚类模型进行聚类,采用损失函数的负梯度作为当前决策树的残差近似值,去拟合新的决策树;
S33,提出指标 去描述聚类结果的过合并现象,此指标定义描述为:;
式中,P表示两个同一作者论文在同一个簇中的情况数量;FN表示两个同一作者论文分别在两个簇中的情况数量;M为理想聚类结果数,N为实际聚簇结果数;
值越高聚类所带来的过拆分程度就越低。
3.根据权利要求1所述的基于对比学习和异构图注意力网络的作者名称消歧方法,其特征在于:S4中,具体包括:S41,为名称相同的作者实体生成候选对;
S42,对于每一个作者实体,构建异构图,如果候选对之间的机构、合著者名称相同或者论文相似,则相互连接,得到异构图G(V, E);
S43,利用异构图注意力网络确定作者匹配。
4.根据权利要求3所述的一种基于对比学习和异构图注意力网络的作者名称消歧方法,其特征在于:S43中,具体包括:S431,通过S2的表示学习模型得到每一个论文实体的语义嵌入,通过LINE模型对S42中构建的异构图进行训练,得到每个实体的结构嵌入;
S432,将两种嵌入合并在一起作为输入特征f,通过self‑attention求出不同作者实体e之间的重要性,此过程描述为:;
;
式中, 为共享的权重矩阵,对于每一个ej , 指的是ei的所有邻居节点。
5.根据权利要求1所述的一种基于对比学习和异构图注意力网络的作者名称消歧方法,其特征在于:S5中,具体包括:S51,按照排列组合的规则生成无重复的Pairs
S52,使用预先训练好的HGAT去检测一组pair是否从属于一个作者;
S53,通过给出对齐规则对论文簇进行对齐;
S54,过程需要进行多次,次数定义为loops,最终得出的cluster_pubs为最后的消歧结果。
6.根据权利要求5所述的一种基于对比学习和异构图注意力网络的作者名称消歧方法,其特征在于:S53中,具体包括:S531,计算每个节点的临边节点取判断为对齐两两节点的相似度得分最高的一组边进行连接;
S532,在所有节点都进行判定后,使用dfs实现联通子图算法,得出对齐规则,并进行合并。