1.一种论文作者姓名消歧方法,其特征在于,包括如下步骤:S1:创建作者信息数据集和邮箱统计临时表;
S2:对作者信息集中的每项作者属性特征进行权重计算;
S3:基于词向量生成作者属性特征的嵌入表示,通过S2得到的特征权重对嵌入的特征向量进行加权融合,得到作者信息集的整体嵌入;
S4:提取邮箱统计临时表中的一个邮箱地址;
S5:根据提取的邮箱地址,在作者信息数据集中进行筛选,获取若干条被选中的作者信息记录,构建图神经网络;每条作者信息记录作为其中的一个节点;
S6:在图神经网络中,将作者姓名和机构均相同且距离小于阈值的节点构建边;
S7:通过图自动编码器学习作者信息的节点嵌入,将存在边的作者信息合并为一组专家数据,并添加到临时信息表中分配唯一ID,其余作者信息作为独立专家数据添加到临时信息表,分别分配唯一ID;
S8:各组专家数据通过其包含作者信息关联对应的论文ID,将关联论文ID后的各组专家数据输出到专家资源临时表;
S9:为所述专家资源临时表中的每一组专家数据进行邮箱聚合统计,邮箱聚合统计方法包括:为该组专家数据中包含的各个邮箱统计出现频次;
取出现频次最多的邮箱作为该组专家数据对应的邮箱,并填入该组专家数据的邮箱题录;
若出现频次最多的邮箱有多个,则拆分收件人,Email服务器地址,进行LCS比较,取得完全匹配的邮箱作为该组专家数据对应的邮箱,填入该组专家数据的邮箱题录,并对其他题录进行去重;
将所述专家资源临时表中数据写入专家资源表,删除专家资源临时表;
S10:更新专家资源表,其中,所述专家资源表包括关键词、学科、期刊和源邮箱题录,更新的方法包括:根据所述专家资源表中每条新增数据的关联论文ID读取文献数据库中对应的关键词、学科和期刊字段,通过去重、分隔后写入对应题录下;
将S4中提取的邮箱地址写入新增数据的源邮箱题录下,所述源邮箱用于通过该邮箱关联对应的专家数据组的邮箱;
S11:提取邮箱统计临时表中下一个邮箱地址,回到S5步骤,直至遍历整个邮箱统计临时表;
S12:对专家资源表进行二次合并,输出专家资源表。
2.根据权利要求1所述一种论文作者姓名消歧方法,其特征在于,建立作者信息数据集的方法包括如下步骤:从文献数据库中的相关数据中提取作者属性信息并以预设规则进行规范化生成作者信息数据集,相关的数据包括:全局唯一标识符guid、邮箱EM、作者姓名AF、通讯作者RP、作者简称AU、关键词DE、出版物PU以及所属机构C1字段数据;
作者属性信息包括:全局唯一标识符guid、邮箱EM、作者全名Name、作者简称altName、机构Organizations、第二机构Second_Organization、合著者Coauthor、国别Country和组织部门organizationdept;
预设规则包括:
guid取自文献数据库guid字段;
name取自作者姓名AF字段;
altname取自姓名简称AU字段;
organization取自所属机构C1字段;
second organization取自所属机构C1字段;
coauthor取自所属机构C1字段。
3.根据权利要求1所述一种论文作者姓名消歧方法,其特征在于,建立邮箱统计临时表的方法包括:从文献数据库中的EM字段、作者姓名AF字段、和通讯作者RP获取数据,并采用循环遍历去重后得到所述邮箱统计临时表,其中,当邮箱数量与作者数量一致时,邮箱与姓名全称AF一一对应,当邮箱数量与通讯作者数量一致时,邮箱与通讯作者RP一一对应。
4.根据权利要求3所述一种论文作者姓名消歧方法,其特征在于,建立作者信息数据集的方法还包括:将作者信息数据集中的name题录下数据小写化。
5.根据权利要求1所述一种论文作者姓名消歧方法,其特征在于,判断作者姓名和机构是否相同的方法包括:S51:判断作者姓名和机构字段是否相同,若是则判定相同,若不是则执行S52;
S52:判断是否存在以下情况:作者姓名字段存在公共子串且机构字段完全相同,或者作者姓名字段相同,机构字段存在公共子串,是则判定相同,否则判断为不同。
6.根据权利要求1所述一种论文作者姓名消歧方法,其特征在于,二次合并的方法包括:判断作者姓名和机构字段是否存在完全重复和存在公共子串,是则判断为存在相同的数据记录,否则再次判断是否存在机构相同或者二级机构存在公共子串的情况,是则判断为存在相同的数据记录,否则判断为不存在相同的数据记录,对存在相同的数据记录的数据继续判断是否存在相同的合作者或具有相同的研究领域或发表过同一期刊或具有相同关键词,或二级机构包含关系,不存在则视为不同作者,存在则合并作者与对应的关联的论文ID。
7.根据权利要求1所述一种论文作者姓名消歧方法,其特征在于,二次合并的方法还包括:若不同的源邮箱对应得到相同的作者且关联论文ID相同,则合并作者。
8.根据权利要求1所述一种论文作者姓名消歧方法,其特征在于,判断两条作者信息记录之间距离是否小于设定阈值的方法包括:选取同一作者的两篇论文作为正样本对,不同作者的两篇论文作为负样本对,构建训练集;基于预训练模型得到距离阈值m,当两篇论文之间的距离小于m,认为是正样本对,当两篇论文之间的距离大于m,则认为是负样本对。
9.一种计算机设备,其特征在于,一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行如权利要求1至7中任意一项所述的方法。
10.一种存储有计算机程序的存储介质,其特征在于,该程序被处理器执行时实现如权利要求1至7中任意一项所述的方法。