利索能及
我要发布
收藏
专利号: 202210619313X
申请人: 齐鲁工业大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-05-14
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于细粒度方面特征的智能新闻推荐方法,其特征在于,该方法通过构建并训练由Aspect‑level新闻编码器、Aspect‑level用户编码器、点击率预测器所构成的新闻推荐模型,将所有候选新闻依据点击率大小由高到低进行排序,将Top‑K条新闻推荐给用户;

具体如下:

构建Aspect‑level新闻编码器,以新闻的标题、摘要、主类别和子类别信息作为输入,使用卷积神经网络、注意力机制和K‑means聚类算法分别从上述四类信息中学习基于细粒度方面特征的新闻向量;

构建Aspect‑level用户编码器,以用户浏览记录为输入,使用Aspect‑level新闻编码器和注意力机制得到基于细粒度方面特征的用户向量;

构建点击率预测器,根据候选新闻向量和基于细粒度方面特征的用户向量,计算用户对每一条候选新闻的点击率;将所有候选新闻依据点击率大小由高到低进行排序,将Top‑K条新闻推荐给用户。

2.根据权利要求1所述的基于细粒度方面特征的智能新闻推荐方法,其特征在于,所述Aspect‑level新闻编码器由新闻特征提取器、Aspect‑level特征提取器共同组成;通过联接新闻特征提取器所输出的新闻特征向量r和Aspect‑level特征提取器所输出的基于细粒度方面特征的新闻向量rd得到Aspect‑level新闻向量表示n,公式如下:n=[r;rd]。

3.根据权利要求2所述的基于细粒度方面特征的智能新闻推荐方法,其特征在于其新闻特征提取器,包括四个模块:标题学习模块、摘要学习模块、分类学习模块和注意力模块,具体如下:构建标题学习模块,针对数据集中每一个单词构建单词映射表,并将表中每一个单词映射成唯一的数字标识,映射规则为:以数字1为起始,随后按照每个单词被录入单词映射表的顺序依次递增排序,从而形成单词映射转换表;使用Glove预训练语言模型,得到每个单词的词向量表示;在嵌入层将每一个新闻标题T=[w1,w2,...,wN]转换成向量表示,记为E=[e1,e2,...,eN],其中,N表示一个新闻标题的长度,eN表示第N个单词wN的向量表示;

针对E=[e1,e2,...,eN]使用卷积神经网络CNN进行特征提取,得到上下文特征向量[c1,c2,...,cN],公式如下:ci=ReLU(Qw×e(i‑k):(i+k)+bw);

其中,i表示相应词向量在新闻标题中的相对位置,k表示距离i相对位置的差值,e(i‑k):(i+k)表示聚合了(i‑k)到(i+k)位置的词向量,Qw表示CNN过滤器的卷积核,bw表示偏置,ReLU为一种激活函数,运算符×为矩阵乘法;

对上下文特征向量[c1,c2,...,cN],使用注意力机制进一步提取关键特征,得到最终的t新闻标题向量r,公式如下:

其中,q是由上下文特征向量得到的注意力查询向量,V和v是从训练过程中学到的参数,tanh为一种激活函数,运算符×为矩阵乘法,exp为对数函数运算,ai是第i个单词的注意力分值,αi是第i个单词的注意力权重,N是上下文特征向量[c1,c2,...,cN]的长度;

a

构建摘要学习模块,具体步骤同构建标题学习模块,得到摘要向量r;

构建分类学习模块,在嵌入层通过词向量方法将主类别标签和子类别标签分别映射到c sc低维空间向量得到每个类别标签的词向量表示e和e ,然后使用激活函数ReLU生成类别标c sc签的最终向量r和r ,公式如下:

c c

r=ReLU(Vc×e+vc);

sc sc

r =ReLU(Vsc×e +vsc);

其中,ReLU是一种激活函数,Vc,Vsc,vsc和vc是从训练过程中学到的参数,运算符×为矩阵乘法;

t a c sc

构建注意力模块:针对标题、摘要、主类别标签和子类别标签的向量r 、r、r和r ,使用激活函数tanh分别计算各自的注意力分数,即at、aa、ac、asc,然后进一步通过注意力机制分别得到各自的注意力权重,公式如下:其中,Vt、Va、Vc、Vsc、vt、va、vc、vsc为计算标题注意力分数at、摘要注意力分数aa、主类别t标签注意力分数ac和子类别标签注意力分数asc的参数, 是由标题向量r生成的注意力查a c询向量, 是由摘要向量r生成的注意力查询向量, 是由主类别标签向量r生成的注意sc力查询向量, 是由子类别标签向量r 生成的注意力查询向量,tanh为一种激活函数,运算符×为矩阵乘法,exp为对数函数运算,αt是标题的注意力权重,αa是摘要的注意力权重,αc是主类别标签的注意力权重,αsc是子类别标签的注意力权重;

t a c

最终的新闻特征向量r由标题向量r 、摘要向量r 、主类别标签向量r 和子类别标签向sc量r 以及各自的注意力权重决定,公式如下:

t a c sc

r=[αtr;αar;αcr;αscr ];

其中,符号;表示联接操作。

4.根据权利要求2所述的基于细粒度方面特征的智能新闻推荐方法,其特征在于其Aspect‑level特征提取器,具体如下:在嵌入层,针对每一条新闻的词向量表示,通过计算加权平均值的方式得到其全局词向量表示,然后使用单词级别的注意力机制重新构建新闻向量,得到基于注意力的新闻向量表示zd,公式如下:其中,ei是每一条新闻中每个单词所对应的词向量表示,y是全局词向量表示,N是一条新闻向量的长度,hi是注意力权重,H是y和新闻词向量ei之间的映射矩阵,exp为对数函数运算,α′i是注意力权重,zd是基于注意力的新闻向量表示,运算符·为向量内积运算,即两个向量对应位置上的值相乘再相加的操作;

针对所有新闻的词向量,使用特征聚类算法——K‑means得到细粒度方面特征矩阵A,然后通过矩阵乘法重构上述步骤中的基于注意力的新闻向量表示zd,得到基于细粒度方面特征的新闻向量rd,公式如下:p=softmax(Wp·zd+b);

其中,Wp是权重矩阵参数,b是偏置向量,p是由zd经过归一化操作softmax函数计算得到的细粒度方面特征权重向量,rd是基于细粒度方面特征的新闻向量,操作符·为向量内积运算,即两个向量对应位置上的值相乘再相加的操作。

5.根据权利要求1所述的基于细粒度方面特征的智能新闻推荐方法,其特征在于,所述Aspect‑level用户编码器的构建过程具体如下:构建Aspect‑level用户编码器,具体的,包括新闻特征提取器、Aspect‑level特征提取器和用户兴趣提取器;

新闻特征提取器和Aspect‑level特征提取器的构建过程与权利要求2所述相同,在此不再赘述;

构建用户兴趣提取器,具体如下:

针对用户浏览记录,通过新闻特征提取器得到新闻特征向量k;再使用Aspect‑level特征提取器构建基于细粒度方面特征的新闻向量kd;最后将k和kd联接作为最终的用户浏览记录表示n′;公式如下:n′=[k;kd];

针对用户浏览记录表示n′,使用句子级别的注意力机制得到Aspect‑level用户向量表示u;公式如下:其中,qn是由用户浏览记录表示n′生成的注意力查询向量,Vn和vn是从训练过程中学到的参数,tanh为一种激活函数, 是第i个新闻的注意力分数, 是每条用户浏览记录中第i个新闻的注意力权重,M是用户浏览记录的长度。

6.根据权利要求1、2、5所述的基于细粒度方面特征的智能新闻推荐方法,其特征在于,所述点击率预测器的构建过程具体如下:将Aspect‑level新闻向量表示和Aspect‑level用户向量表示经过向量内积计算得到最后的点击率分数;公式如下:本方法模型尚未进行充分训练时,需要在训练数据集上进行训练,以优化模型参数;当模型训练完毕时,点击率预测器可预测每一条候选新闻的推荐得分,根据得分,推荐合适的新闻给用户。

7.根据权利要求1所述的基于细粒度方面特征的智能新闻推荐方法,其特征在于,所述训练数据集的构建过程具体如下:构建新闻数据集或者选择已公开的新闻数据集;

预处理新闻数据集:预处理新闻数据集中的每一条新闻文本,去除新闻数据集中的停用词及特殊字符;分别抽取每一条新闻文本的标题、主类别、子类别和摘要信息;

构建训练正例:使用用户浏览记录中的历史新闻序列和交互行为序列中标签为1的新闻编号,即被用户点击的新闻的编号,构建训练正例;

构建训练负例:使用用户浏览记录中的历史新闻序列和交互行为序列中标签为0的新闻编号,即未被用户点击的新闻的编号,构建训练负例;

构建训练数据集:将全部的正例数据和负例数据进行组合,并打乱其顺序,构建最终的训练数据集。

8.根据权利要求1所述的基于细粒度方面特征的智能新闻推荐方法,需要通过训练数据集进行训练与优化,具体如下:构建损失函数:采用负采样技术,将一个用户的已点击的新闻定义为正样例,没有点击过的新闻定义为负样例,计算正样例的点击预测值pi;公式如下:其中, 是在同一点击序列中的第j个负样例相对于第i个正样例的点击率, 是第i个正样例,G是负样例的个数;

新闻推荐的损失函数为所有正样例的负对数似然函数,公式如下:

其中, 是正样例的集合;

同时,为确保模型获取的Aspect‑level特征的质量,设计了针对Aspect‑level特征提取器的损失函数,公式如下:其中,G是负样例的个数, 是训练数据集,rd和zd是由Aspect‑level特征提取器生成的特征向量,nj是第j个负样例的向量表示,An是细粒度方面特征矩阵A的每一行被规范化为长度1后的矩阵,I是单位矩阵,λ是控制正则项权重的参数;

将新闻推荐方法的损失函数U(θ)和Aspect‑level特征提取器的损失函数J(θ)相加得到整个模型的损失函数,公式如下:L=U(θ)+J(θ);

优化训练模型:选择使用Adam优化函数作为本模型的优化函数,其中,学习率设置为

0.001,平滑常数设置为(0.9,0.999),eps设置为1e‑8,L2惩罚值设置为0。

9.一种基于细粒度方面特征的智能新闻推荐系统,其特征在于,该系统包括:训练数据集生成单元,首先在线上新闻网站获得用户的浏览记录信息,随后对其进行预处理操作,从而得到符合训练要求的用户浏览记录及其新闻文本内容;训练数据集生成单元包括,原始数据获取单元,负责下载网络上已经公开的新闻网站数据集,将其作为构建训练数据集的原始数据;

原始数据预处理单元,负责预处理新闻数据集中的每一条新闻文本,去除新闻数据集中的停用词及特殊字符;分别抽取每一条新闻文本的关键信息,如标题、类别、摘要;从而构建训练数据集;

基于细粒度方面特征的新闻推荐模型构建单元,用于载入训练数据集、构建Aspect‑level新闻编码模块、构建Aspect‑level用户编码模块以及构建候选新闻预测模块,基于细粒度方面特征的新闻推荐模型构建单元包括,训练数据集载入单元,负责加载训练数据集;

Aspect‑level新闻编码模块构建单元,负责在训练数据集中训练基于Glove词向量模型的新闻向量,并定义所有的新闻向量表示;首先使用卷积神经网络和注意力机制分别编码新闻标题和摘要,得到新闻标题和摘要向量;同时使用全连接层分别编码新闻主类别和子类别,得到新闻主类别和子类别向量;再将新闻标题、摘要、主类别和子类别向量进行联接并输入到注意力机制中,得到最终的新闻向量;同时,使用嵌入层处理新闻向量,得到嵌入层的新闻向量;再使用K‑means算法对嵌入层的新闻向量聚类处理,得到细粒度方面特征矩阵;同时通过注意力机制得到基于注意力的新闻向量,最后通过矩阵乘法操作处理细粒度方面特征矩阵和基于注意力的新闻向量,得到最终的基于细粒度方面特征的新闻向量;

将最终的新闻向量和最终的基于细粒度方面特征的新闻向量联接,得到Aspect‑level新闻向量;

Aspect‑level用户编码模块构建单元,负责根据用户浏览记录构建基于细粒度方面特征的用户向量;其中,用户浏览记录的新闻向量由Aspect‑level新闻编码模块构建单元得到,再通过一层注意力网络得到Aspect‑level用户向量;

候选新闻预测模块构建单元,负责,将Aspect‑level新闻向量和Aspect‑level用户向量作为输入,通过向量内积运算生成每个候选新闻的得分即点击率,然后将所有候选新闻依据点击率大小由高到低进行排序,将Top‑K条新闻推荐给用户;

模型训练单元,用于构建模型训练过程中所需要的损失函数,并完成模型的优化训练;

模型训练单元包括,

损失函数构建单元,负责计算预测的候选新闻与真实的目标新闻之间的误差;

模型优化单元,负责训练并调整模型训练中的参数,减小预测误差。

10.一种存储介质,其中存储有多条指令,其特征在于,所述指令由处理器加载,执行权利要求1‑8中所述的基于细粒度方面特征的智能新闻推荐方法的步骤。