买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于多维特征融合的文献研究领域关联程度量化方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于多维特征融合的文献研究领域关联程度量化方法

￥31200

专利号： 2024117555792

申请人：南京信息工程大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-07-01

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于多维特征融合的文献研究领域关联程度量化方法，其特征在于，包括如下步骤：步骤1、从文献数据库获取目标文献数据，抽取文献元数据并进行预处理，生成初始化文献向量和文献研究领域关联程度标签，并进行目标文献数据集平衡；

步骤2、基于文献元数据构建多个无向图和邻接矩阵，表示文献之间的多维关联关系；

步骤3、构建图卷积神经网络模型，对文献节点进行多维特征融合，选择最优聚合策略增强文献节点的关联表示能力，得到增强后的文献节点特征，方法如下：步骤3.1、将步骤1中生成的语义特征向量和步骤2中不同无向图的邻接矩阵信息，共同构成每个文献节点的初始特征向量，作为图卷积神经网络模型的输入；

步骤3.2、在图卷积神经网络的层中对邻居节点进行聚合操作更新节点：聚合每个节点邻居节点的特征向量，更新节点过程如下：；

其中，表示聚合方式符号，代表每种关联图的节点更新过程，；在第l+1层特征融合后的特征矩阵为；

步骤3.3、选择最优聚合策略增强文献节点的关联表示能力，所述聚合策略包括求和策略、平均策略、最值池化策略，得到增强后的文献节点特征；

步骤4、基于增强后的文献节点特征，计算文献间的领域相关性，并通过迭代训练模型，动态更新文献节点特征向量，评估文献研究领域关联程度量化的有效性；

步骤5、结合最小维球模型，对学者的跨领域科研能力进行量化比较，进行学者特征的有效区分，方法如下：步骤5.1、将所有文献的特征向量整合成一个集合，，其中每个特征向量表示一篇文献的特征，为文献的特征向量数量，表示文献向量的维度，使用特征向量均值作为最小维球的球心：；

步骤5.2、计算所有特征向量到特征向量均值的最大欧式距离作为半径，代表其覆盖整个特征向量集合的最小维球，半径计算如下：；

步骤5.3、对于每位学者抽取所有发表的文献，重复步骤5.1，生成每位学者的最小维球模型，比较不同学者的最小维球体积：；

其中，为伽马函数，当为整数时转化为阶乘函数；最小维球体积越大，对应学者的科研领域越广泛，跨领域科研能力越强。

2.根据权利要求1所述的基于多维特征融合的文献研究领域关联程度量化方法，其特征在于，步骤1获取目标文献数据并进行预处理，方法如下：步骤1.1、从文献数据库获取目标文献数据，抽取关键元数据，包括：文献的标题、摘要、关键词、作者、出版信息；

步骤1.2、进行文献元数据预处理，得到初始化文献向量：

剔除缺失关键元数据的文献；应用停用词表，通过正则表达式去除文献标题和摘要中预设的常见停用词；使用jieba分词工具对文献标题和摘要进行中文分词，利用Doc2Vec模型对分词后的文本进行训练；模型参数size为文献向量维度，生成每篇文献的语义特征向量；

步骤1.3、进行文献元数据的预处理，从文献元数据中提取领域分类号字段，统一处理为固定长度字符串，用于表示领域大类和子研究领域，对处理后的领域分类号进行前缀匹配，生成文献研究领域关联程度标签；

步骤1.4、在平衡采样过程中进行分层抽样，对于每个前缀类别，若样本数量小于或等于设定的样本数，则全部保留；若样本数量大于设定样本数，则设定随机数种子从中随机抽取指定数量的样本，形成平衡后的数据集；按前缀类别进行分组，划分测试集和训练集，使每个前缀类别在训练集和测试集中比例一致。

3.根据权利要求1所述的基于多维特征融合的文献研究领域关联程度量化方法，其特征在于，步骤1.3中，基于前缀匹配算法对处理后的领域分类号进行前缀匹配；

所述前缀匹配算法，对于文献i和文献j分别按位进行领域分类号字符匹配，如果相同则加1，否则为0，通过领域分类号中字符匹配决定前缀匹配长度，得到文献i和文献j的领域分类号间的距离D(i,j)，将D(i,j)转为对应的离散关联等级，生成文献研究领域关联程度标签，数字越大代表文献间的研究领域关联程度越高。

4.根据权利要求2所述的基于多维特征融合的文献研究领域关联程度量化方法，其特征在于，步骤2基于文献元数据构建多个无向图，方法如下：步骤2.1、构建若干种不同的无向图，每种无向图结构表示为，用于捕捉文献间的多维关联关系，其中，节点表示携带文献元数据的文献，边表示文献间的关联，边的权重反映文献类型关联的强度；

步骤2.2、对每种无向图结构生成相应的邻接矩阵，初始化的零矩阵，其中，表示文献i和文献j在图结构维度下的关联强度，表示文献的篇数；遍历每对文献，填充邻接矩阵中对应的元素。

5.根据权利要求4所述的基于多维特征融合的文献研究领域关联程度量化方法，其特征在于，步骤2.1构建若干种不同的无向图，包括：标题分词图、共同关键词图、期刊名称关联图、领域分类关联图；

所述标题分词图：如果两篇文献的标题经过分词处理后存在交集，即两篇文献之间至少有一个分词相同，则在对应节点间构建边，边的初始权重设置为相同分词的个数，量化标题的相似性；

所述共同关键词图：如果两篇文献在关键词列表中出现同一个关键词时，将两篇文献在图中通过边相连，边的权重设置为相同关键词的个数，表示关键词在领域关联中的重要性；

所述期刊名称关联图：如果两篇文献发表在同一学术期刊，建立边，边的权重设置为1，用于反映文献所属期刊对领域关联的贡献；

所述领域分类关联图：如果两篇文献属于同一个领域分类号，建立边，边的权重设置为

1，体现领域分类信息对文献关联程度的影响。

6.根据权利要求1所述的基于多维特征融合的文献研究领域关联程度量化方法，其特征在于，步骤3.2中，计算如下：；

其中，代表在第l层通过信息传播和更新得到不同图结构的节点特征矩阵，为邻接矩阵，为的度矩阵，权重矩阵为，为激活函数。

7.根据权利要求4所述的基于多维特征融合的文献研究领域关联程度量化方法，其特征在于，步骤4评估文献研究领域关联程度量化的有效性，方法如下：步骤4.1、计算文献间的领域相关性，从增强后的文献节点集合中计算欧式距离作为文献研究领域关联程度量化方法的预测值，每对文献向量之间的欧式距离的计算方法如下：；

其中，和为空间中两个点在第i个维度上的坐标，表示文献向量的维度，为文献间关联程度量化后的预测值；

步骤4.2、将预测值与预设的标签进行对比，引入带误差容限的准确率作为评估指标，通过设定误差阈值，进行不同精度下的文献研究领域关联程度评估；