利索能及
我要发布
收藏
专利号: 2021104180323
申请人: 电子科技大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-17
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于多属性特征的文章推荐方法,该方法具体包括下列步骤:步骤1:数据获取;

获取每一篇文章的数据包含作者、机构信息、文章标题文本、文章摘要文本、文章引文;

根据获取的文章引文构建全部文章的引文网络,该引文网络表示全部文章之间的引用联系;根据作者、机构信息构建全部文章的异构网络,该异构网络表示全部文章之间关于作者、机构信息的联系;

步骤2:根据步骤1构建的引文网络计算每篇文章的struc2vec特征向量;

步骤3:根据步骤1获取的文章标题文本、文章摘要文本计算每篇文章的doc2vec特征向量;

步骤4:根据步骤1获构建的异构网络计算每篇文章的metapath2vec特征向量;

步骤5:对每一篇文章,选取A篇struc2vec特征相似度最高的文章、B篇doc2vec特征相似度最高的文章、C篇metapath2vec特征相似度最高的文章;将选出的所有文章与这篇文章在引文网络上建立联系,且将每条联系赋予权重,重构出一个含有多属性特征的引文网络;

步骤6:根据含有多属性特征的引文网络采用DeepWalk方法计算得到每篇文章的整体特征向量步骤7:实际推荐时,对特定文章,选取整体特征向量相似度最高的多篇文章进行推荐。

2.如权利要求1所述的一种基于多属性特征的文章推荐方法,其特征在于,所述步骤1中获取每一篇文章数据的方法为:步骤1.1:首先将多个空格、“\t”、“\n”、“^”符号后接的数字清洗掉;

步骤1.2:对于含有字符“@”的数据,“@”字符前面的一段连续字符认定为作者,“@”符号后面的一段连续字符认定为机构信息;针对剩下的数据中,利用“ins”、“insti”、“colle”、“cent”、“univ”关键字提取机构信息,再在剩下的数据在通过正则表达式提取作者;

步骤1.3:通过在维基百科上的学校名字或缩写,同时满足以下两个条件则确认是同一个作者:a)机构信息的缩写是以“·”或“@”分割的邮箱信息的子串;

b)通过“@”字符得到的学者非全称姓名是通过正则表达式得到学者全称姓名的子串;

步骤1.4:根据文章信息直接获取文章标题文本、文章摘要文本。

3.如权利要求1所述的一种基于多属性特征的文章推荐方法,其特征在于,所述步骤2中计算struc2vec特征向量的方法为:步骤2.1:定义引文网络中节点vi的邻域N(vi),每个节点表示一篇文章,节点的k级邻域定义为Nk(vi);定义s(S)为节点集合S的度序列;定义函数g(s(S1),s(S2))为两个度序列S1、* *S2的距离,定义κ为G(E,V)中相距最远的点的距离,κ为构建的多层网络的层数;

步骤2.2:计算多层网络中,节点vi,vj的距离fκ(i,j):步骤2.3:构建一个多层网络,对于每一层,都保留原来引文网络的所有节点,相邻层的相同节点建立连接,并构建有 条边的完全图,V表示引文网络中的节点集合,|V|表示引文网络中的节点个数,第κ层的两个节点vi,vj连边eij的权重如下:对于第κ层和第κ‑1层的文章节点vi来说,存在有向边,权重如下定义:*

w(iκ,iκ+1)=log(Γκ(i)+e),κ=0,1,…,κ*

w(iκ,iκ‑1)=1,κ=1,2,…,κ

其中Γκ(i)度量的是κ层所有节点与节点vi的相似程度;

步骤2.4:采用步骤2.3建立的多层网络生成每篇文章节点的上下文序列;

对于网络的一层来说,通过权重wκ(i,j)来决定文章节点vi转移到文章节点vj的概率pκ(i,j);

考虑相邻层的网络,文章节点vi不仅可以转移到vj,还可以上移一层或者下移一层,定义pκ(i,i+1)为文章节点向上一层网络的同样节点转移的概率,pκ(i,i‑1)为文章节点向下一层的转移概率:根据转移概率,计算出每篇文章节点在多层网络中的上下文序列;

步骤2.5:采用层次Softmax方法,将上下文序列输入进Skip‑Gram模型中,得到该文章的struc2vec特征向量。

4.如权利要求1所述的一种基于多属性特征的文章推荐方法,其特征在于,所述步骤4中计算metapath2vec特征向量的方法为:步骤4.1:生成一个随机游走序列v1,v2,v3…,vl,生成序列所需的异构网络节点vk转移到vk+1的概率p(vk+1|vk)如下计算:其中,E′表示带有文章作者、机构信息的异构网络的边集,type()为一个映射,type(vk)表示节点vk所属的类型,type(ei)表示边ei所属的类型;

步骤4.2:最优目标是最大化条件概率:

其中,Ntype(v)是节点v类型为type的邻居节点,Tv为G′中所有节点的类型集合,θ表示需要优化的参数,G′表示带有文章作者、机构信息的异构网络,p(ntype|v;θ)表示在含有论文v上下文(context)序列中,出现概率论文节点ntype的概率,ntype表示任意与论文节点v相邻的且为type类型的论文节点,Y表示异构网络的所有节点集合;

步骤4.3:最优化目标中的log(p(ntype|v))是softmax函数 设负采样大小为X,则得到损失函数形式:

其中, 表示论文节点ntype的目标特征向量,ntype表示任意与论文节点v相邻的且为type类型的论文节点,Rv表示论文节点v的特征向量, 表示所有类型为type的论文节点中的第j个,utype表示节点ntype的类型, 表示softmax函数梯度如下所示:

其中, 表示 是否是ntype的邻居节点, 表示 论文节点的特征向量,p(x)表示softmax函数softmax(x), 表示所有类型为type的论文节点中的第j个;

步骤4.5:根据梯度进行多次后向传播,每次后向传播更新随机游走序列,最终得到的最优后向传播序列为每篇文章的metapath2vec特征。

5.如权利要求1所述的一种基于多属性特征的文章推荐方法,其特征在于,步骤5中A=

3,B=2,C=2。

6.如权利要求3所述的一种基于多属性特征的文章推荐方法,其特征在于,所述步骤

2.3中计算Γκ(i)的方法为:

设从κ层节点vi生成的集合Tκ(i)满足 Γκ(i)的计算方式如下:

其中, 表示论文节点vi的所有wκ的平均值。