1.一种基于子空间嵌入的学术论文差异性分析方法,其特征在于,包括,针对论文中某一特定部分文本进行论文差异评分:
1)设论文 某一特定部分文本包含 个句子 ,利用神经网络预训练文本编码器模型BERT作为编码器,得到句向量序列 ;
2)采用条件随机场方法CRF作为预训练序列标记模型,对某一特定部分文本进行句子级别的功能子空间标记,得到句子功能标记序列 , ,其中 为子空间数量;
3)基于句向量序列 和句子功能标记序列 ,对论文 的某一特定部分文本进行子空间融合嵌入,即对相同句子功能标记的句向量进行语义融合;
采用了基于全局注意力机制和池化操作的多层感知机神经网络的子空间融合嵌入方法,以获得不同子空间交互信息,计算方式如下: (1) (2) (3) (4) (5)在公式(1)中, 表示子空间 中第 个句子的句向量;其中 表示编码器计算出来的第 个句子的句向量;是运算符,表示点积; 是指示函数,当第 个句子的功能标记为子空间 时, ,否则 ;
在公式(2)中, 表示子空间 中全部句子的句向量序列;
在公式(3)、(4)中,其中; 分别是多层感知机神经网络的权重参数和偏差参数,;
在公式(5)中, 为子空间 中的文本嵌入向量, 是子空间 的权重矩阵, 是基于全局注意力机制的权重参数,是基于全局注意力机制的偏差参数;
然后采用基于全局注意力机制融合其他子空间作为上下文信息,记为 ;
最后融合子空间 中的文本嵌入向量 和上下文信息 为嵌入结果 : (6) (7) (8)在公式(6)中, 表示对于子空间 作为上下文融合到子空间 中的权重, 和 分别表示子空间 和 中的文本嵌入向量;
在公式(7)中, 表示除子空间 外的全部子空间嵌入的加权和; 是子空间 中的文本嵌入向量;
在公式(8)中, 是融合上下文信息后的子空间 的嵌入结果;
4)最终子空间语义差异评分函数 如下: (9)在公式(9)中,表示论文的文本; 为向量欧氏距离;为论文 子空间 的嵌入向量;
为论文 子空间 的嵌入向量;
对于论文 ,采用期望方式计算嵌入向量:(10)
在公式(10)中, 为指示函数,计算方式为子空间 中全部句子的子空间嵌入平均值;对于论文 ,的求取原理与公式(10)相同。
2.根据权利要求1所述的一种基于子空间嵌入的学术论文差异性分析方法,其特征在于,还包括:
引入学术界度量论文间差异性的基本共识作为专家规则,设计评价函数量化论文差异,评价指标包括基于摘要的论文差异评分函数 、基于学科分类标记的论文差异评分 、基于参考文献的论文差异评分 、基于关键词的论文差异评分 ,其中 分别表示论文文本、分类、参考文献、关键词;
所述基于学科分类标记的论文差异评分,包括:给定两篇文章 和 ,用 和 分别表示从根节点到论文标记节点之间的路径,定义两篇文章的学科分类的标记的差异函数:
(11)
在公式(11)中,表示当前节点 在学术论文分类系统的层次,所述分类系统是指学术论文分类系统是专家创建的不同研究领域学术内容的层次化分类系统; 表示该层次节点的权重;
所述基于参考文献的论文差异评分,包括:定义两篇文章 和 的差异评分函数为引用文献集合 和 的杰卡德系数的倒数:(12)
所述基于关键词的论文差异评分,包括:记论文 的关键词集合为 ,评分函数定义为 和 所有关键词的词向量欧式距离的期望,其中 是论文 关键词 的预训练词嵌入向量, 是论文 关键词 的预训练词嵌入向量, 表示两个向量之间的欧氏距离:
(13)
在每一个子空间的融合函数值 和 计算如下,其中 为随训练一起学习的权重参数:
(14)依据专家规则标记结果,在子空间 上 之间的差异性大于 ,即 为正样本对, 为负样本对, ;
用 和 表示三篇论文, 和 差异 大于 和 差异 的可能性与评价函数 取值成正相关关系:(15)
在公式(15)中,表示概率分布函数;在论文 和 之间, 表示任意一种评价函数在每个子空间的评分,在论文 和 之间, 表示任意一种评价函数在每个子空间的评分;
其中, 为论文 和 在子空间 的差异性评分:(16)
其中, 为论文 和 在子空间 的差异性评分:(17)
为论文 子空间 的嵌入向量;为论文 子空间 的嵌入向量; 为论文 子空间的嵌入向量。
3.根据权利要求2所述的一种基于子空间嵌入的学术论文差异性分析方法,其特征在于,一种基于子空间嵌入的学术论文差异性分析方法,还包括,基于孪生网络的子空间嵌入学习方法:
提出了基于孪生神经网络的对比损失模型,以论文子空间 的嵌入向量 和 作为网络输入,对于任意样本 之间的差异性关系,如果存在 ,则孪生网络的损失函数为:
(18)将损失函数 转换为合页损失函数的形式,添加正则项后为: (19)
在公式(19)中,为合页损失函数中的偏差参数;是正则化项的系数; 为正则化项,计算方式为 范数。
4.根据权利要求1、2或3所述的一种基于子空间嵌入的学术论文差异性分析方法,其特征在于,所述论文中某一特定部分为摘要文本。