1.一种文献识别与技术路径演化的实现方法,其特征在于:所述方法首先是根据检索的文献划分技术领域的生命周期,再结合文献间关系构建关系网络、划分网络社群,按技术领域生命周期的发展阶段去分析各阶段中各社群的关键节点,构建核心文献评价指标体系,通过灰色关联度排序方法去对各阶段中各社群的关键节点进行核心文献识别排序,获得在各阶段中的核心文献,最后通过梳理技术路径,分析出技术领域的演化发展过程;
所述方法包括:
步骤1:对获取的文献数据集进行统计和分析,划分所分析的技术领域生命周期;
步骤1‑1:收集相关技术领域的专利数据,包括每年的专利申请数量,文献发表数量;
步骤1‑2:使用拟合方法,即线性回归、多项式回归,来拟合趋势线,得到拟合函数;
步骤1‑3:计算拟合函数的斜率,斜率表示每年专利申请数量的变化速率,用于判断技术领域的生命周期阶段;
步骤1‑4:分析拟合函数的曲线形状,根据曲线的形态特征,推断技术领域的生命周期阶段;
步骤1‑5:根据斜率和曲线形状的分析,划分技术领域的生命周期阶段,生命周期阶段包括前期探索阶段、快速增长阶段、成熟阶段和衰退阶段;
步骤2:建立文献关系网络,划分ii个社群,按技术领域的生命周期去分析不同社群的发展情况,接着获取不同阶段下第ii个高中心度的文献;
步骤2‑1:建立复杂网络的关系矩阵;
步骤2‑1‑1:确定需要建立关系矩阵的资料对象,即为文献、专利;
步骤2‑1‑2:确定文献间关系的定义或度量方式,即相似度、相关性、共现关系,在文献中是论文间的引证关系,所属期刊关系,对于专利是专利引用关系、共同发明人关系、IPC分类号;
步骤2‑1‑3:从关系的定义或度量方式中去计算关系度量的大小,有相似度计算,相关性计算,共现性计算,对其进行加权求和,得到分析对象间的关系强度r,r计算方式如下:r=wcscosine_similarity(A,B)+wklKL(P||Q)+wsS(i,j) (2.7)其中cosine_similarity(A,B)是采用余弦相似度方法得到的关系强度,KL(P||Q)是采用KL散度(Kullback‑Leibler Divergence)得到的关系强度,S(i,j)是Jaccard系数矩阵计算得到的关系强度,并且wcs、wkl和ws分别是针对上述三类度量方法的权重,根据具体文献的实际情况这三类度量指标并不一定同时出现,需要根据实际情况进行选择使用;
步骤2‑1‑4:对于不同文献标题、主题、摘要信息之间的相似度计算,采用不同文献中的词向量之间的余弦相似度方法,计算方式(2.8)如下:其中,A和B分别表示两篇文献中的词向量的表示形式,·表示向量的点积,||·||表示向量的范数;
步骤2‑1‑5:对于相关性计算,分析作者之间、单位之间、期刊之间、专利代理机构之间的关联性,采用KL散度(Kullback‑Leibler Divergence)计算方法,计算公式(2.9)如下:KL(P||Q)=∑P(x)log(P(x)/Q(x)) (2.9)其中,P(x)和Q(x)分别表示为两篇文献中待分析关联元素的概率分布函数;
步骤2‑1‑6:对于文献之间的关联性,引用与被引用关系,使用共现性计算方法即Jaccard系数矩阵方法,Jaccard系数矩阵计算公式如式(2.10)所示:式中S(g,h)表示为文献g和文献h共同被引用的长度,cit(g)和cit(h)分别表示文献g和文献h各自被引用的频次,coc(g,h)表示文献g和文献h共同被引用的频次;
步骤2‑1‑7:权重系数的计算;
权重系数的计算使用层次分析法(Analytic Hierarchy Process,AHP)方法获得,同时这三类权重系数满足:wcs+wkl+ws=1
步骤2‑1‑8:将文献间关系强度组建成文献间关系矩阵,关系矩阵是一个方阵,其中每个元素表示文献之间的关系强度,根据具体需求,对关系矩阵进行标准化处理,以消除度量方法本身的影响或调整关系强度的尺度;
步骤2‑2:对复杂关系矩阵进行可视化,并用FR算法对节点进行布局;
步骤2‑2‑1:得到关系矩阵后将其进行可视化,将数据导入关系网络可视化软件或使用程序进行可视化;
步骤2‑2‑2:使用FR算法(Fruchterman‑Reingold)确定各节点的位置,FR算法由弹簧模型和能量模型组成,弹簧模型用于模拟节点之间的引力和斥力,能量模型用于计算整个图布局的能量,弹簧模型通过弹簧的拉伸和压缩来模拟节点之间的引力和斥力,弹簧模型的能量函数定义如下:其中,Es是弹簧模型的能量n是节点数,k是弹簧的刚度系数,d(i,j)是节点i和节点j之间的距离,s(i,j)是节点i和节点j之间的理想长度;
能量模型通过考虑节点的权重来计算整个图布局的能量,每个节点都有一个权重,表示其重要性或优先级,能量模型的函数定义如下:其中,E是全局能量模型中的能量,q表示两个点之间的静电力常数,wij是节点i和节点j两个点之间的权重;
步骤2‑2‑3:通过迭代FR算法优化能量函数来逐步调整节点的位置,以达到图布局的平衡状态;
步骤2‑3:对布局后的复杂网络关系图进一步进行社群划分;
步骤2‑3‑1:将每个节点视为一个单独的社群,利用程序让节点进行移动;
步骤2‑3‑2:遍历每个节点,计算将该节点移动到相邻社群时的模块化指数增益,遍历每个节点,计算该节点移动到相邻社群时的模块化指数增益直到没有节点移动,或者模块化指数增益 满足停止容差条件,否则重复步骤2‑3‑1和步骤2‑3‑2,模块化指数增益 及停止准则条件如式(2.13):(n+1) (n)
其中 是模块化指数增益,Q 是节点移动后的新模块指数,Q 是节点移动前的旧‑4模块指数,ε是停止容差,为1×10 ;
步骤2‑3‑3:采用Louvain算法计算模块指数公式如式(2.14):(n)
其中,Q 是模块化指数,表示社群划分的质量;c是社群的索引,表示第c个社群;Σin是社群内部的连接权重之和,表示社群内节点之间的连接总权重;Σtot是节点的度数,即与节点相连的边的数量之和,表示节点的总度数;m是网络中所有边的总权重之和的一半,即m=1/2×总边权重和;ec是社群c的内部连接的比例,即ec=Σin/(2m),表示社群内部连接权重与总连接权重的比例;ac是社群c的度数之和的比例的平方,即 它表示社群中节点度数之和与总度数之和的比例的平方;
步骤2‑3‑4:重复步骤2‑3‑1和步骤2‑3‑2,将节点移动到能够最大化模块度增益的相邻社群中,直到没有节点移动;
步骤2‑3‑5:将每个社群视为一个单独的节点,构建新的网络,重复步骤2,直到无法继续优化模块度;
步骤2‑3‑6:达到最大模块度的社群划分即最终的划分结果,按所需的社群个数进行裁剪得到所需的K个主社群;
步骤2‑4:分析复杂关系网络各社群中的高中心性度关键节点;
步骤2‑4‑1:计算节点中的中心性指标Ca(v),即节点中心度,Ca(v)计算公式如下:其中,Cd(v)表示节点v的度中心性,Cc(v)表示节点v的接近中心性,Cb(v)表示节点v的介数中心性,Ce(v)表示节点v的特征向量中心性;
步骤2‑4‑2:计算度中心性Cd(v),其数学表达式如下:Cd(v)=deg(v) (2.16)
其中,deg(v)表示节点v的度数,即与节点v相连的边的数量;
步骤2‑4‑3:计算接近中心性Cc(v),其数学表达式如下:其中,d(u,v)表示节点u和节点v之间的最短路径长度;
步骤2‑4‑4:计算介数中心性Cb(v),其数学表达式如下:其中,σst表示节点s和节点t之间的最短路径数量,σst(v)表示通过节点v的最短路径数量;
步骤2‑4‑5:计算特征向量中心性Ce(v),其数学表达式如下:其中,λ表示最大特征值,A(u,v)表示节点u和节点v之间的连接权重,Ce(u)表示节点u的特征向量中心性;
步骤2‑4‑6:通过节点的中心性指标大小筛选复杂网络图中的关键节点文献;
步骤2‑5:引入时间轴分析各社群在不同阶段的发展情况;
步骤3:通过灰色关联度的方法,对高中心性度的文献进一步进行核心文献的识别;
步骤3‑1:数据源选择;
以社群中的某一个主题下的关键节点,即高中心性文献作为数据源,并将数据源按照时间进行排列,以技术领域生命周期的时间界限对文献进行划分,得到p个不同时间段的文献数据源;
步骤3‑2:核心文献技术质量指标选取;
选取核心文献技术质量指标,用于评价文献类型主要包括论文和专利形式,高价值论文的重要技术指标包括:论文引用次数、H指数、影响因子、引文评分、SJR、SNIP、Altmetric Score、下载次数和在线浏览次数、期刊排名指标,单项高价值专利评估包括:专利引用数量、技术影响力指数、科学关联度、技术覆盖范围、独立权利要求数、专利许可、专利权人影响力指标体系;
步骤3‑3:计算每个指标的灰色关联度系数及其权重,从而得到灰色关联度,以灰色关联度作为排序的测度;
步骤3‑4:计算每一行中的灰色关联度,灰色关联度公式如(2.20):其中,Ra是关联度加权求和公式,用于计算待评估文献序列a在所有评估指标上的加权*关联度,ωa是按AHP方法对核心文献技术质量评估指标的赋权,γ(X0(b),X (a,b))是待评*估文献X(a,b)在a列第b个评估指标上的关联度系数;
通过将每个评估指标的关联度乘以对应的权重,并将它们加权求和,得到待评估专利序列 的总体灰色关联度Ra,依据关联度大小得出在关键节点文献中的核心文献;
步骤3‑4‑1:构建原始数据矩阵X,有m行参考指标,每一行对于待评价文献的评价指标分数有n个,因此构成m×n原始数据矩阵X;
步骤3‑4‑2确定参考序列X0选择原始数据矩阵X中各指标数据最大值,设定为参考序列:X0=(x01,x02,...,x0d,....,x0n),d=1,2,...,n (2.30)数据规范化处理,通过公式(2.29‑1)将原始数据矩阵X中第c行第d列的评价指标分数按望大归一化方法转换为望大归一化后的指标分数;
式中, 为规范化后的数据, 即为望大归一化后的数据矩阵;
*
X即为望大归一化后的数据矩阵;
*
步骤3‑4‑3计算差矩阵D,即计算x0d与 差作为差矩阵D的元素,或计算X0(d)与X (c,d)的差作为差矩阵D的元素,并由此构成差矩阵D:*
D(c,d)=|X0(d)‑X(c,d)|,c=1,2,...,m;d=1,2,...,n (2.31)步骤3‑4‑4求差矩阵D中的最大值MM与最小值mm,方法如下:MM=max(max(D))(2.32)
*
mm=min(min(D))(2.33)步骤3‑4‑5计算灰色关联度系数矩阵γ(x0(d),X (c,d)),使用差矩阵D及其最大值MM与最小值mm组成的灰色关联度系数矩阵公式(2.34)进行计算,式中,ξ为分辨系数,ξ=0.5;
步骤4:从核心文献中分析技术路径的演化;
步骤4‑1:以划分的技术领域生命周期为时间轴,确定研究领域的时间范围,将其作为时间轴的基准,根据相关文献、专利或研究历史信息来确定时间范围,并将其划分为不同的阶段或时间段;
步骤4‑2:从构建的复杂关系网络中选择社群作为研究对象;
步骤4‑3:根据核心文献的排序结果,选择排名靠前的核心文献进行解读和分析,通过阅读这些核心文献,识别出其中的关键技术,将这些关键技术进行梳理和记录,形成技术路径图;
步骤4‑4:分析文献技术路径的演化,根据技术路径图,分析文献在不同时间段的演化趋势和变化,观察关键技术的出现、发展和衰退情况,以及技术路径的延伸和转变,通过对文献内容的比较和对时间轴上的位置关系的观察,了解技术领域在不同时间段的发展方向和趋势。