1.一种基于多维特征融合的文献研究领域关联程度量化方法,其特征在于,包括如下步骤:步骤1、从文献数据库获取目标文献数据,抽取文献元数据并进行预处理,生成初始化文献向量和文献研究领域关联程度标签,并进行目标文献数据集平衡;
步骤2、基于文献元数据构建多个无向图和邻接矩阵,表示文献之间的多维关联关系;
步骤3、构建图卷积神经网络模型,对文献节点进行多维特征融合,选择最优聚合策略增强文献节点的关联表示能力,得到增强后的文献节点特征,方法如下:步骤3.1、将步骤1中生成的语义特征向量和步骤2中不同无向图的邻接矩阵信息,共同构成每个文献节点的初始特征向量,作为图卷积神经网络模型的输入;
步骤3.2、在图卷积神经网络的层中对邻居节点进行聚合操作更新节点:聚合每个节点邻居节点的特征向量,更新节点过程如下:;
其中,表示聚合方式符号, 代表每种关联图的节点更新过程, ;在第l+1层特征融合后的特征矩阵为 ;
步骤3.3、选择最优聚合策略增强文献节点的关联表示能力,所述聚合策略包括求和策略、平均策略、最值池化策略,得到增强后的文献节点特征;
步骤4、基于增强后的文献节点特征,计算文献间的领域相关性,并通过迭代训练模型,动态更新文献节点特征向量,评估文献研究领域关联程度量化的有效性;
步骤5、结合最小 维球模型,对学者的跨领域科研能力进行量化比较,进行学者特征的有效区分,方法如下:步骤5.1、将所有文献的特征向量整合成一个集合 , ,其中每个特征向量 表示一篇文献的特征, 为文献的特征向量数量,表示文献向量的维度,使用特征向量均值作为最小 维球的球心 :;
步骤5.2、计算所有特征向量到特征向量均值的最大欧式距离作为半径,代表其覆盖整个特征向量集合的最小 维球,半径 计算如下:;
步骤5.3、对于每位学者抽取所有发表的文献,重复步骤5.1,生成每位学者的最小 维球模型,比较不同学者的最小 维球体积 :;
其中,为伽马函数,当 为整数时转化为阶乘函数;最小 维球体积越大,对应学者的科研领域越广泛,跨领域科研能力越强。
2.根据权利要求1所述的基于多维特征融合的文献研究领域关联程度量化方法,其特征在于,步骤1获取目标文献数据并进行预处理,方法如下:步骤1.1、从文献数据库获取目标文献数据,抽取关键元数据,包括:文献的标题、摘要、关键词、作者、出版信息;
步骤1.2、进行文献元数据预处理,得到初始化文献向量:
剔除缺失关键元数据的文献;应用停用词表,通过正则表达式去除文献标题和摘要中预设的常见停用词;使用jieba分词工具对文献标题和摘要进行中文分词,利用Doc2Vec模型对分词后的文本进行训练;模型参数size为文献向量维度,生成每篇文献的语义特征向量;
步骤1.3、进行文献元数据的预处理,从文献元数据中提取领域分类号字段,统一处理为固定长度字符串,用于表示领域大类和子研究领域,对处理后的领域分类号进行前缀匹配,生成文献研究领域关联程度标签;
步骤1.4、在平衡采样过程中进行分层抽样,对于每个前缀类别,若样本数量小于或等于设定的样本数,则全部保留;若样本数量大于设定样本数,则设定随机数种子从中随机抽取指定数量的样本,形成平衡后的数据集;按前缀类别进行分组,划分测试集和训练集,使每个前缀类别在训练集和测试集中比例一致。
3.根据权利要求1所述的基于多维特征融合的文献研究领域关联程度量化方法,其特征在于,步骤1.3中,基于前缀匹配算法对处理后的领域分类号进行前缀匹配;
所述前缀匹配算法,对于文献i和文献j分别按位进行领域分类号字符匹配,如果相同则加1,否则为0,通过领域分类号中字符匹配决定前缀匹配长度,得到文献i和文献j的领域分类号间的距离D(i,j),将D(i,j)转为对应的离散关联等级,生成文献研究领域关联程度标签,数字越大代表文献间的研究领域关联程度越高。
4.根据权利要求2所述的基于多维特征融合的文献研究领域关联程度量化方法,其特征在于,步骤2基于文献元数据构建多个无向图,方法如下:步骤2.1、构建若干种不同的无向图,每种无向图结构表示为 ,用于捕捉文献间的多维关联关系,其中,节点 表示携带文献元数据的文献,边 表示文献间的关联,边的权重反映文献类型关联的强度;
步骤2.2、对每种无向图结构生成相应的邻接矩阵 ,初始化 的零矩阵 ,其中,表示文献i和文献j在图结构维度下的关联强度,表示文献的篇数;遍历每对文献,填充邻接矩阵中对应的元素。
5.根据权利要求4所述的基于多维特征融合的文献研究领域关联程度量化方法,其特征在于,步骤2.1构建若干种不同的无向图,包括:标题分词图、共同关键词图、期刊名称关联图、领域分类关联图;
所述标题分词图:如果两篇文献的标题经过分词处理后存在交集,即两篇文献之间至少有一个分词相同,则在对应节点间构建边,边的初始权重设置为相同分词的个数,量化标题的相似性;
所述共同关键词图:如果两篇文献在关键词列表中出现同一个关键词时,将两篇文献在图中通过边相连,边的权重设置为相同关键词的个数,表示关键词在领域关联中的重要性;
所述期刊名称关联图:如果两篇文献发表在同一学术期刊,建立边,边的权重设置为1,用于反映文献所属期刊对领域关联的贡献;
所述领域分类关联图:如果两篇文献属于同一个领域分类号,建立边,边的权重设置为
1,体现领域分类信息对文献关联程度的影响。
6.根据权利要求1所述的基于多维特征融合的文献研究领域关联程度量化方法,其特征在于,步骤3.2中, 计算如下:;
其中, 代表在第l层通过信息传播和更新得到不同图结构的节点特征矩阵,为邻接矩阵,为 的度矩阵,权重矩阵为 , 为激活函数。
7.根据权利要求4所述的基于多维特征融合的文献研究领域关联程度量化方法,其特征在于,步骤4评估文献研究领域关联程度量化的有效性,方法如下:步骤4.1、计算文献间的领域相关性,从增强后的文献节点集合中计算欧式距离作为文献研究领域关联程度量化方法的预测值,每对文献向量之间的欧式距离的计算方法如下:;
其中, 和 为空间中两个点在第i个维度上的坐标, 表示文献向量的维度, 为文献间关联程度量化后的预测值;
步骤4.2、将预测值与预设的标签进行对比,引入带误差容限的准确率作为评估指标,通过设定误差阈值,进行不同精度下的文献研究领域关联程度评估;
使用 表示预设的标签值, 表示预测值,ε表示误差范围,文献研究领域关联程度,计算方法如下:;
其中,N为样本总数,I为指示函数,用于检查预测值是否在允许的误差范围内;当 和的误差落在ε范围内时,视为正确的预测;
步骤4.3,重复步骤4.1和步骤4.2,直至模型收敛,通过不断迭代训练和更新文献节点特征向量,提高文献研究领域关联程度量化方法的准确性和有效性。
8.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1至7中任一所述的基于多维特征融合的文献研究领域关联程度量化方法。
9.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,该程序被处理器执行时,实现权利要求1至7中任一项所述的基于多维特征融合的文献研究领域关联程度量化方法中的步骤。