利索能及
我要发布
收藏
专利号: 2023105848726
申请人: 浙江理工大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于图神经网络的论文数据姓名消歧算法,包括如下步骤:

(1)利用特征工程提取论文数据集中每篇论文的论文特征作为姓名消歧的元数据,并将每篇论文作为异质网络中的节点;

(2)基于拼音声母的转换方法将论文数据集划分为若干个同名作者簇,以解决同一作者姓名有多种不同写法的问题;

(3)使用Word2Vec对论文特征进行词向量嵌入表示并生成每篇论文的特征向量,进而采用三元组损失模型对特征向量进行调整,最后基于特征向量进行初步聚类;

(4)根据论文的共同通讯作者构建学术关系网络,并基于强规则对同一关系网络中的同名作者进行二次聚类;

(5)利用图自动编码器来学习学术关系网络中节点的分布式表示,从而得到各节点包含论文属性信息和论文间关系信息的表征向量;

(6)使用包含节点级和语义级的分层注意力机制网络来学习同一元路径上不同节点之间的权值关系以及不同元路径之间的权值关系,进而通过加权融合以增强论文节点的表征向量;

(7)根据增强后得到的论文表征向量通过层次聚类算法进行聚类,从而实现姓名消歧。

2.根据权利要求1所述的论文数据姓名消歧算法,其特征在于:所述步骤(1)中提取的论文特征由论文属性特征和论文关系特征两部分组成,其中论文属性特征包括作者姓名、邮箱、地址机构名称、标题,论文关系特征包括合著者、关键词、出版物。

3.根据权利要求1所述的论文数据姓名消歧算法,其特征在于:所述步骤(2)的具体实现过程如下:Step1:将所有论文的作者姓名均视为类,构成类集合A={a1,a2,…,an};

Step2:将所有作者姓名均统一成小写并去除特殊符号;

Step3:将作者姓名中的拼音全写用唯一的汉字对应;

Step4:分析作者姓名是拼音全称还是声母简写,并将拼音全写解析为拼音、拼音对应的声母以及拼音对应的汉字;

Step5:如果集合A中任意两个类a1与a2的作者姓名均为拼音全写且对应的汉字相同,或者类a1与a2的作者姓名中含有声母简写且对应的声母相同,那么将a1和a2合并为类a12,并把类a12添加到集合A中,同时去除a1和a2;

Step6:反复执行Step5,直至集合A中没有类可以再合并为止,结束聚类。

4.根据权利要求1所述的论文数据姓名消歧算法,其特征在于:所述步骤(3)中首先通过Word2Vec生成每项论文特征的词向量,然后通过TF‑IDF计算每项论文特征的权值,最后将所有词向量加权求和后得到每篇论文的特征向量,具体计算公式如下:其中:xm表示论文特征,Di表示论文i的特征集合,xi表示论文i的特征向量, 表示论文特征xm的词向量,fm表示论文特征xm的权值系数。

5.根据权利要求1所述的论文数据姓名消歧算法,其特征在于:所述步骤(3)中采用三元组损失模型对特征向量进行调整即利用大量正负样本对作为训练数据,正样本对为属于同一作者的两篇论文,负样本对为属于不同作者的两篇论文,进而根据以下损失函数ζd对三元组损失模型进行训练,训练完成后取模型中的Word2Vec重新计算生成每篇论文的特征向量;

其中:yij=1表示论文i和论文j属于同一作者即正样本对,yik=0表示论文i和论文k属于不同作者即负样本对,dij表示论文i与论文j特征向量之间的欧式距离,dik表示论文i与论文k特征向量之间的欧式距离,m为一个固定的边界距离常量,[]+为hinge损失函数。

6.根据权利要求1所述的论文数据姓名消歧算法,其特征在于:所述步骤(3)中根据调整后得到的特征向量通过余弦相似度在异质网络中遍历计算任意两个论文节点特征向量之间的相似度,若相似度足够高,则在这两个节点之间构建一条边。

7.根据权利要求1所述的论文数据姓名消歧算法,其特征在于:由于邮箱地址具有唯一性,在邮箱信息无缺的情况下,如果两位重名作者含有相同的邮箱,则认为这两位作者为同一个人,所述步骤(4)中将与相同通讯作者有合著关系的学者处于同一学术关系网络中。

8.根据权利要求1所述的论文数据姓名消歧算法,其特征在于:所述步骤(4)中的强规则包括:①如果两篇论文的作者姓名相同、地址信息相同且含有相同的合著者,那么可以认为这两篇论文属于同一作者;

②如果两篇论文的作者姓名相同、地址信息相同且发表在同一出版物上,那么可以认为这两篇论文属于同一作者;

③如果两篇论文的作者姓名相同、地址信息相同且含有相同的关键词,那么可以认为这两篇论文属于同一作者。

9.根据权利要求1所述的论文数据姓名消歧算法,其特征在于:所述步骤(6)中首先通过图注意力网络对同一元路径上的邻居节点进行加权融合,得到节点级的论文表征向量;

然后再使用语义级的注意力机制来学习不同元路径的重要性,并融合各个元路径的语义得到最终的论文表征向量;所述元路径即为基于相同论文关系特征连接起来的节点所构成的路径。