利索能及
我要发布
收藏
专利号: 2023115982810
申请人: 山东科技大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-08
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于关系融合与表示学习的文献作者姓名消歧方法,其特征在于,包括如下步骤:步骤1、从电子文献数据库检索,获取待消歧作者的所有英文文献,构建所有英文文献的属性集合;具体过程如下:步骤1.1、设待消歧作者的姓名为a,将一篇英文文献中的其他作者称为合著者,检索获取的包含a的英文文献集合为Dtotal={D1,D2,…,Di,…,Dm},其中Di是第i篇英文文献,m是英文文献数量;

步骤1.2、对于Di的摘要、标题和关键词,剔除停用词和非文字符号,将所有英文字母转换成小写字母,提取词干,得到若干处理后的单词;将每个单词及其对应属性名称拼接,得到若干格式为“__<属性名称>__<单词>”的属性,其中“<属性名称>”是摘要、标题、关键词之一,“<单词>”是经过处理后得到的单词;

步骤1.3、对于Di的合著者、作者单位、出版刊物,将包含的所有英文字母转换为小写字母,剔除字符串两端空格,使用下划线代替字符串中的非英文字母字符;每位合著者格式化为“__合著者__<姓名>”形式的属性,文献作者单位格式化为“__单位__<作者单位名称>”形式的属性,文献出版刊物格式化为“__刊物__<出版刊物名称>”形式的属性;

步骤1.4、合并步骤1.2和步骤1.3得到的属性,获得第i篇英文文献的属性集合Bi;

步骤1.5、对每一篇英文文献重复执行步骤1.1至步骤1.4,得到所有英文文献的属性集合 其中n表示所有属性的数量,bj表示所有英文文献的属性集合Btotal中的第j个属性;

步骤2、利用连续词袋模型获取文献的向量表示,构建特征向量矩阵;

所述步骤2中,连续词袋模型由输入层、隐藏层和输出层组成;构建特征向量矩阵的具体过程如下:步骤2.1、构造每个属性的初始特征向量形式,定义第j个属性bj的初始特征向量为步骤2.2、将每个初始特征向量输入连续词袋模型获取每个属性对应的预测编码;计算第j个属性的预测编码的过程如下:将与xj相邻的2l个特征向量{xj‑l,xj‑l+1,…,xj‑1,xj+1,…,xj+l}输入到连续词袋模型的输入层,xj+l表示第j+l个属性的初始特征向量,根据公式(1)计算连续词袋模型隐藏层的输出向量 d是属性特征的嵌入维度, 是实数集合:其中,xk表示第k个属性的初始特征向量; 是预先定义的从输入层到隐藏层的权重矩阵;

连续词袋模型输出层根据hj并利用公式(2)计算第j个属性bj的预测编码其中, 是预先定义的从隐藏层到输出层的权重矩阵;

步骤2.3、使用公式(3)计算第一损失函数值E:其中,exp(·)表示以自然常数e为底的指数函数;h′k表示第k个属性的预测编码;

步骤2.4、使用梯度下降算法更新权重矩阵W和W′;

步骤2.5、重复步骤2.2至步骤2.4,直至E收敛为止,得到最终的权重矩阵Wfinal和W′final;

步骤2.6、计算每个属性的语义嵌入向量;第j个属性的语义嵌入向量 的计算公式如下:步骤2.7、计算每个属性的逆向文件频率;计算第i篇英文文献的属性集合Bi中的每个属性的逆向文件频率的过程为:首先进行判断,如果第j个属性bj∈Bi,则统计bj在Bi中的出现次数cj,然后使用公式(5)计算bj的逆向文件频率IDFj:其中,ni是Bi中的元素个数;

步骤2.8、计算每一篇英文文献的嵌入向量表示;对于第i篇英文文献Di∈Dtotal,使用公式(6)计算Di的嵌入向量表示步骤2.9、将所有英文文献的嵌入向量表示汇总成为一个特征向量矩阵r

特征向量矩阵X为特征学习阶段获得的文献向量表示;

其中,Xm为第m篇英文文献Dm的嵌入向量表示;

步骤3、判断任意两篇文献之间的关系,进行关系抽取;

步骤4、根据文献之间的关系,构建聚合图及聚合图对应的邻接矩阵,并基于变分图自编码器获取优化后的第一文献嵌入向量矩阵;具体过程如下:步骤4.1、将第i篇英文文献Di∈Dtotal用顶点vi表示,得到顶点集V={v1,v1,…,vi,…,vm};将存在共同作者关系或相同专业词关系的两篇英文文献对应的顶点 和 用一条边r r连接起来,得到聚合图G 的边集 从而得到聚合图G =r

(V,E);

r r r

步骤4.2、根据公式(8)计算G的邻接矩阵A的第 行、第 列元素 的值,从而得到G 的r邻接矩阵A;

计算时,的值与i的值相等,的值与j的值相等;

r

步骤4.3、根据步骤2得到的特征向量矩阵X,使用公式(9)、公式(10)和公式(11),计算r聚合图G的均值矩阵 和方差矩阵

其中, 为第一中间变量;变分图自编码器由编码器和解码器两部分组成,r分别为在计算Z 时编码器和解码器的权重矩阵;f和g分别为r r

在计算Z 时编码器和解码器输出向量的维度; 是邻接矩阵A的对r r

称归一化;激活函数ReLU(·)=max(0,·); 是矩阵σ的第 行、第 列元素; 是矩阵μr的第行、第 列元素; 是G 的度矩阵;

r

使用公式(12)计算聚合图G优化过程中的第一文献嵌入向量矩阵r r r r

Z=μ+ε *σ    (12);

其中, 是服从标准高斯分布N(0,1)的随机数组成的第一矩阵;*是两个矩阵进行逐元素的乘法运算;

使用公式(13)计算英文文献Di和Dj之间存在边的第一概率r

其中, 为 的第 行、第 列元素; 为 的转置, 和 分别是Z 的第 行和第行;

使用公式(14)计算第二损失函数值r r

其中,p(Z)是由服从标准高斯分布N(0,1)的随机数组成的与Z 同样行数、列数的第一r矩阵; 表示Z的数学期望函数;

r ′r

使用梯度下降算法更新W和W ;

步骤4.4、重复步骤4.3,直到 收敛为止,得到最终的权重矩阵 和步骤4.5、使用步骤4.4得到的 和 再次代入公式(9)‑公式(12),得到使r

用聚合图G优化完成的第一文献嵌入向量矩阵步骤5、根据文献之间的关系,构建重要作者图及重要作者图对应的邻接矩阵,并利用变分图自编码器和优化后的第一文献嵌入向量矩阵获取优化后的第二文献嵌入向量矩阵;

具体过程如下:

步骤5.1、定义重要作者集合为与待消歧作者a合作过至少两篇文献的作者的集合,将r待消歧作者a的重要作者集合记为N:其中Ni为第i篇英文文献Di中作者a的合作者集合;Nj为第j篇英文文献Dj中作者a的合作者集合;

步骤5.2、基于步骤4.1构建的顶点集V,将同时存在相同重要作者关系、共同单位关系,或同时存在相同重要作者关系、相同专业词关系的两篇文献对应的顶点 和 用一条边p连接起来,得到重要作者图G的边集 从而得到重要作者p p

图G=(V,E);

p p p

步骤5.3、根据公式(16)计算G的邻接矩阵A的第 行、第 列元素 的值,从而得到Gp的邻接矩阵A;

计算时,的值与i的值相等,的值与为j的值相等;

步骤5.4、根据步骤4得到的 采用公式(17)、公式(18)和公式(19),计算重要作者p图G的均值矩阵 和方差矩阵

p

其中, 为第二中间变量; 分别为在计算Z 时编码器和解p

码器的权重矩阵;s和t分别为在计算Z 时编码器和解码器输出向量的维度;

p p

是邻接矩阵A 的对称归一化; 是矩阵σ 的第 行、第 列元素; 是p p

矩阵μ的第行、第 列元素; 是G的度矩阵;

p p

使用公式(20)计算使用重要作者图G优化过程中的第二文献嵌入向量矩阵Z:p p p p

Z=μ+ε *σ    (20);

其中, 是服从标准高斯分布N(0,1)的随机数组成的第二矩阵;

使用公式(21)计算英文文献Di和Dj之间存在边的第二概率p

其中, 为 的第 行、第 列元素; 为 的转置, 和 分别是Z的第 行和第行;

使用公式(22)计算第三损失函数值p p

其中,p(Z)是由服从标准高斯分布N(0,1)的随机数组成的与Z 同样行数、列数的第二p矩阵; 表示Z的数学期望函数;

p ′p

使用梯度下降算法更新W和W ;

步骤5.5、重复步骤5.4,直到 收敛为止,得到最终的权重矩阵 和步骤5.6、使用步骤5.5得到的权重矩阵 和 再次代入公式(17)‑公式p

(2 0) ,得 到 使用 重要 作者 图 G 优化 完成 的第 二 文献 嵌入 向量 矩阵其中 是 的第 行,表示第i篇英文文献Di的嵌入向量;

步骤6、基于优化后的第二文献嵌入向量矩阵,对待消歧作者的所有英文文献进行聚类,获得消歧结果。

2.根据权利要求1所述基于关系融合与表示学习的文献作者姓名消歧方法,其特征在于,所述步骤3的具体过程如下:对于两篇不同的英文文献,如果它们有相同的合著者,则判定它们之间存在共同作者关系;如果有相同的作者单位,则判定它们之间存在共同单位关系;如果有相同专业词,则判定它们之间存在相同专业词关系。

3.根据权利要求1所述基于关系融合与表示学习的文献作者姓名消歧方法,其特征在于,所述步骤6的具体过程如下:步骤6.1、将每篇英文文献的嵌入向量视为一个单独的簇,使用公式(23)计算任意两个簇 和 之间的距离其中, 和 分别表示 和 中的文献数量, 为不同簇的序号表示,和 分别是 和 的第k个元素, 是第j篇英文文献Dj的嵌入向量;

步骤6.2、合并 值最小的两个簇为一个簇;

步骤6.3、重复执行步骤6.1和步骤6.2,直到任意两个簇之间的距离大于预先定义的阈值;

步骤6.4、输出步骤6.3得到的各个簇,各个簇即为重名作者的文献集的消歧结果,其中同一个簇中的文献属于同一个作者,不同簇的文献属于不同作者。