利索能及
我要发布
收藏
专利号: 2021105271495
申请人: 电子科技大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-17
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于用户行为序列填充和筛选的新闻点击率预测方法,该方法包括:步骤1:数据获取;

使用微软提供的新闻数据集MIND(Microsoft News Dataset),从MIND数据集中随机抽样50000用户和他们的行为记录,记为MIND‑small数据集;MIND‑small数据集中包括两部分,用户数据、新闻数据;用户数据的属性包括:用户ID、时间戳、用户点击历史,新闻数据的属性包括:新闻ID、新闻标题、新闻摘要、新闻内容、新闻类别;

步骤2:用户行为序列填充,用户行序列是由用户点击的新闻组成,一个点击新闻代表了一个行为;

当用户的行为序列中的数量N小于等于G时采用符号“0”或者其它相应符号进行填充这些用户行为序列,G为用户行为序列可以填充的最小阈值,;

当用户行为序列中的数量N大于G少于阈值K时,将这些用户行为序列使用sentence‑Bert方法得到用户行为序列向量,使用sentence‑Bert方法得到所有新闻列表中每个新闻的句子向量,计算用户行为序列向量与新闻的句子向量的相关度,选取相关度最大的K‑N个新闻进行用户行为填充;

步骤3:用户行为序列筛选,当用户行为序列中的数量N大于K时,对用户行为进行筛选;

计算该用户N个行为与候选新闻的相关度,从这N个行为中筛选出与候选新闻相关度最大的S个行为,S小于K,再从剩余行为中随机选择K‑S个行为,共同组成K个行为;

步骤4:新闻点击预测;

将在获得最终的用户行为序列之后,构建新闻点击概率预测神经网络模型,该模型输入为用户行为序列和当前候选新闻,输出为候选新闻被点击的概率,该神经网络的损失函数L为:

yi为新闻点击率样本标签,当用户点击了该候选新闻时为1,否则为0;为模型实际的输出概率值,D为训练样本的总数量。

2.如权利要求1所述的一种基于用户行为序列填充和筛选的新闻点击率预测方法,其特征在于,所述步骤2中G大于等于6小于等于8,K大于等于12小于等于15。

3.如权利要求1所述的一种基于用户行为序列填充和筛选的新闻点击率预测方法,其特征在于,所述步骤2和步骤3中计算相关度为余弦相关度。