1.一种基于双层胶囊网络的短视频点击率预测方法,其特征在于:分别从用户点击序列和未点击序列抽取模块属性特征;用户的点击行为属于正反馈,用户的未点击属于负反馈;对于一个用户的点击行为序列 可以表示为而对于一个用户的未点击序列 可以表示为 其中 分别是用户点击了和未点击了的短视频封面图特征向量,d是特征向量长度;从点击序列和未点击序列中抽取相同模块的特征,因此点击序列和未点击序列的胶囊网络中的转换矩阵相同;
这里,从点击和未点击序列中抽取模块特征的胶囊网络为第一层胶囊网络;以下公式为了表达方便,使用p来代替{+,‑};用户点击序列和未点击序列中的模块属性特征为:
其中, 是用户点击或未点击序列中短视频特征向量,Wi是用户序列到模块胶囊i的转换矩阵,点击序列和未点击序列的转换矩阵相同,模块胶囊的个数是M;g是胶囊网络中常用的squash激活函数; 是连接系数,代表 的权重, 参数采用如下动态路由算法更新:
其中, 是输入胶囊j到输出胶囊i的连接系数且初始化为0;
将用户从点击序列和未点击序列中抽取的模块属性特征和目标短视频进行匹配,生成逻辑单元:
new
其中, 是用户的模块属性特征,x 为目标短视频特征向量,为向量拼接操作;
根据从用户点击和未点击序列中抽取出的逻辑单元,生成用户的正面情感和负面情感;改进胶囊网络,从点击和未点击序列中抽取出的逻辑单元中抽取情感特征;这里,从逻辑单元中抽取情感特征的胶囊网络为第二层胶囊网络:其中, 是从点击序列和未点击序列中抽取的逻辑单元; 是点击序列的第i个激活单元到正面情感胶囊pos的转换矩阵, 是点击序列的第i个激活单元到负面情感胶囊neg的转换矩阵, 是未点击序列的第i个激活单元到正面情感胶囊pos的转换矩阵, 是未点击序列的第i个激活单元到负面情感胶囊neg的转换矩阵;从公式中可以看出,点击序列和未点击序列都对正面情感产生影响,具体正面情感受正负反馈的影响程度由超参数α决定且α<0.5;同样,负面情感受正负反馈的影响程度也由超参数α决定;正面情感胶囊spos通过 和 的加权和得到,同样负面情感胶囊sneg通过 和 的加权和得到;这里的g是胶囊网络中常用的squash激活函数;
是连接系数,代表 的权重, 参数采用如下动态路由算法更新,其中p∈{+,‑},k∈{pos,neg}:其中,p∈{+,‑}, 表示和p相反;例如,如果p=‑,那么 且k∈{pos,neg}; 是输入胶囊i到输出胶囊k的连接系数且初始化为0;
根据用户正面和负面情感,预测用户对目标短视频的点击率;给定情感胶囊sk,计算用户点击目标短视频的概率为:
其中,k∈{pos,neg}, 和 是转移矩阵, 是偏置向量,bk,2是偏置标量;σ是sigmoid激活函数,||sk||是向量的长度,代表情感的置信度;
根据模型特性,设计损失函数;通过用户对目标短视频的点击率预测值 计算预测值和真实值y之间的误差,进而使用误差来更新模型参数;采用交叉熵损失函数来指导模型参数的更新过程:
其中,y∈{0,1}是真实值,代表用户是否点击了目标短视频;σ是sigmoid函数;最后采用Adam优化器更新模型参数。