1.一种基于多模态动态路由的短视频点击率预测方法,其特征在于:根据所有用户的历史点击行为序列,构建短视频图网络T;
把短视频多模态特征分别输入短视频图网络T,更新多模态特征表征;对于当前用户的点击行为序列X=[x1,…,xn],其中短视频xj由 和 两种模态构成, 是短视频的封面图特征向量, 是短视频的文本特征向量,模态特征向量 的长度是d;把短视频封面图特征 和文本特征 分别输入图网络,生成多模态特征表征 其中p∈{a,b}; 和 更新方法相同,为了描述方便,以下公式略去p∈{a,b},令:其中,k代表在图网络T中的搜索深度,k的最大深度由搜索深度参数L控制; 代表节点xj在k层的向量表征,模态a和模态b的 分别被初始化为 和 短视频的多模态特征表征即是不同模态特征 p∈{a,b}在短视频图网络中更新深度L之后的 B(j)为短视频图网络T中短视频xj的邻居集合,按照图T边由大到小排序采样sampling获得;非线性函数f表示将节点xj的邻居节点信息融合到节点xj中;
根据短视频多模态特征 生成用户在不同模态下的兴趣表征 p∈{a,b};
和 更新方法相同且参数不共享,令:其中,p∈{a,b}, 是当前用户点击行为序列X=[x1,…,xn]的第j个短视频胶囊到兴趣胶囊i的转换矩阵,兴趣胶囊i的个数是M;用户兴趣表征 的向量长度为d;g是胶囊网络中常用的squash向量激活函数; 是连接系数,代表 的权重, 参数采用如下动态路由算法更新
其中, 是输入胶囊j到输出胶囊i的连接系数且初始化为0;
融合不同模态下的兴趣表征 p∈{a,b},生成用户兴趣表征vi;
其中, 为从短视频封面图像特征抽取出的第i个兴趣表征, 是短视频文本特征抽取出的第i个兴趣表征;参数 和参数W1,W2,W′1, 控制每个兴趣表征的权重,d代表兴趣表征的维度,参数b1、 是偏置向量;σ是sigmoid激活函数;
根据用户兴趣表征vi,预测用户对目标短视频的点击率:其中,vi为用户的第i个兴趣表征,xnew为目标短视频向量表征;参数 和参数W1,控制每个兴趣表征的权重,d既是短视频模态特征向量的长度又是用户兴趣表征的长度,参数c是偏置参数; 和 是转移矩阵, 是偏置向量,b2是偏置标量;σ是sigmoid激活函数;
根据模型特性,设计损失函数;通过用户对目标短视频的点击率预测值 计算预测值和真实值y之间的误差,进而使用误差来更新模型参数;采用交叉熵损失函数来指导模型参数的更新过程:
其中,y∈{0,1}是真实值,代表用户是否点击了目标短视频;σ是sigmoid函数;最后采用Adam优化器更新模型参数。
2.根据权利要求1所述的一种基于多模态动态路由的短视频点击率预测方法,其特征在于:所述短视频图网络T构造方法为:为了捕捉短视频和短视频之间的转移关系,我们从所有用户的历史点击行为序列中构τ τ τ
建短视频图网络T;给定一个用户u历史点击行为序列x =[x1,…,xl],l是用户u的行为序τ
列x的长度,任一短视频xj为图T的节点,(xj‑1,xj)为图网络T的边,(xj‑1,xj)表示一个用户点击短视频xj‑1后点击短视频xj;图的边数值属性为边(xj‑1,xj)出现的次数;为了降低在线计算复杂度,采用离线文件存储每个节点在图网络T中的邻居节点。
3.根据权利要求1所述的一种基于多模态动态路由的短视频点击率预测方法,其特征在于:所述非线性函数f为:
k
其中,B(j)为短视频图网络T中短视频xj的邻居集合,W 是图参数,σ为sigmoid函数,CONCAT表示向量连接操作;AGGREGATE函数采用的最大池化max‑pooling方法:其中,B(j)为短视频图网络T中短视频xj的邻居集合,Wpool是网络参数,b是偏置向量bias vector,σ为sigmoid函数;max代表元素级别的max操作,可以有效捕捉邻居的各个方面属性。