买专利、卖专利、专利购买、专利交易、专利出售、高企申报-基于短视频多模态特征的短视频推荐方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

基于短视频多模态特征的短视频推荐方法

面议

专利号： 2020102849935

申请人：中南大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-07-01

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于短视频多模态特征的短视频推荐方法，其特征在于，包括：

步骤1，对短视频标题特征，使用TF‑IDF方法进行特征提取，使用PCA降维算法将短视频标题特征向量维度降维到k维；

步骤2，提取短视频内容的128维原始特征，使用PCA降维算法将短视频内容特征向量维度降维到k维；

步骤3，提取短视频背景音乐的128维原始特征，使用PCA降维算法将短视频背景音乐特征向量维度降维到k维；

步骤4，基于用户的行为数据获取到用户的评分数据矩阵；

步骤5，将获取到的用户的评分数据矩阵作为观测序列输入到隐马尔可夫模型中进行训练，获取到最优模型的观测概率矩阵，基于观测概率矩阵计算短视频不同模态特征的对短视频的影响比重；所述步骤5具体包括：使用隐马尔可夫模型对用户的评分数据矩阵进行训练获取到最终的观测状态转移矩阵，从而获取到短视频不同模态特征的对短视频的影响比重；隐马尔可夫模型主要包含两个状态集合和三个概率矩阵，隐含状态S集合，无法通过直接观察获得，具体公式如下所示：S＝{s1，s2，...，sn}

其中，n表示隐含状态数量，隐含状态S集合中的任意一个元素si，1≤i≤n，均表示一个隐含状态；

可观测的状态集合O，在模型中与隐含状态相关联，可通过直接观测而得到，具体公式如下所示：O＝{o1，o2，...，om}

其中，m表示可观测的状态数量，可观测状态的数目m不一定要和隐含状态的数目n一致，可观测的状态O集合中的任意一个元素oj，1≤j≤m均表示一个可观测状态；

初始状态概率矩阵π，表示隐含状态在初始时刻的概率矩阵，具体公式如下所示：π＝{p(s1)，p(s2)，...，p(sn)}

其中，n表示隐含状态数量，p(si)，1≤i≤n表示任意一个隐含状态在初始时刻的概率；

隐含状态转移概率矩阵A，具体公式如下所示：

其中，aij＝P(It+1＝sj|It＝si)，1≤i，j≤n，I表示隐含状态序列，It表示t时刻的隐含状态，aij表示在t时刻，隐含状态为si的条件下，在t+1时刻是隐含状态sj的概率，n表示隐含状态的数目；

观测状态转移概率矩阵B，具体公式如下所示：

其中，bij＝P(oj|It＝si)，1≤i≤n，1≤j≤m，表示在t时刻，隐含状态为si的条件下，可观测状态是oj的概率，m表示可观测状态的数目，n表示隐含状态的数目，可用λ＝(A，B，π)三元组来表示一个隐马尔可夫模型，调整这些参数使得可观测序列的概率最大，反过来也可以利用可观测序列来计算模型的参数；所述步骤5还包括：基于短视频标题特征、短视频内容特征和短视频背景音乐特征这三个隐含特征去训练的，即n＝3，可观测的状态分为两种；一种是喜欢和不喜欢，即like和unLike；一种是浏览完和没有浏览完，即fihish和unFinish，观测状态只有两个，即m＝2，分别用title data、video data和audio data表示短视频标题特征、短视频内容特征和短视频背景音乐特征，(1) (2) (1) (2)由此可生成两个观测状态集合O 和O ，隐含状态S集合O 与可观测状态集合O ，如下所示：S＝{title data，video data，audio data}(1)

O ＝{like，unLike}

(2)

O ＝{finish,unFinish}

分别以获取的基于like的用户评分矩阵和基于finish的用户评分矩阵作为可观测序列输入到隐马尔可夫模型中去训练，分别获取到基于like和finish的短视频多模态特征的观测状态转移概率矩阵，样式如下所示：其中，Blike矩阵中P(like|title data)和P(unLike|title data)分别表示用户喜欢和不喜欢短视频标题模态数据的观测概率；Bfinish矩阵中P(finish|title data)和P(unFinish|title data)分别表示用户浏览完和没有浏览完短视频标题模态数据的观测概率，除此之外Blike矩阵和Bfinish矩阵中剩余值的含义以此类推；

根据计算出来的观测状态转移概率矩阵Blike和Bfinish，计算出来在同种观测状态下其它模态数据和随机确定一个模态数据的比值；只需计算用户可能会喜欢的短视频的多模态特征对短视频的影响比重，因此计算在喜欢和已浏览完的状态下其它模态和短视频标题模态的比值，具体公式如下所示：其中，αlike表示在喜欢的状态下短视频内容特征和短视频标题特征影响比值，βlike表示在喜欢的状态下短视频背景音乐特征和短视频标题特征影响比值，αfinish表示在已浏览完的状态下短视频内容特征和短视频标题特征影响比值；βfinish表示在已浏览完的状态下短视频背景音乐特征和短视频标题特征影响比值；

步骤6，基于获取到的短视频不同模态特征的对短视频的影响比重，分别将获取到的短视频标题特征矩阵、短视频内容特征矩阵和短视频背景音乐特征矩阵基于影响比重的融合在一起形成短视频多模态特征融合矩阵；

步骤7，提取短视频的人脸特征、短视频和作者的热度特征和短视频的时间特征，作为手工提取特征矩阵；

步骤8，将融合之后的短视频多模态特征融合矩阵和获得的手工提取特征矩阵输入到不同的机器学习模型中去训练，并基于模型特点将模型进行融合，输出最终的推荐结果；

步骤9，使用AUC作为评价指标，评价推荐结果的可靠性。

2.根据权利要求1所述的基于短视频多模态特征的短视频推荐方法，其特征在于，所述步骤1具体包括：提取短视频标题特征数据，采用TF‑IDF方法，TF‑IDF方法包括TF和IDF，TF是词频，表示一个字词在指定文件中出现的频率，具体计算公式如下所示：其中，tfi，j表示词语ti出现在文件dj中的词频；ni,j表示词语ti出现在文件dj中的次数，∑knk,j表示在文件dj中出现的所有词语的次数之和；

IDF是逆文本频率，表示一个字词在所有文件中出现的频率，具体计算公式如下所示：其中，idfi表示词语ti出现在所有文件中的词频，|D|表示所有文件总数，式(2)中“：”表示包含词语ti的文件数目，计算tfi，j与idfi的乘积便可计算出一个词的TF‑IDF值。

3.根据权利要求2所述的基于短视频多模态特征的短视频推荐方法，其特征在于，所述步骤1、所述步骤2和所述步骤3具体包括：用PCA降维算法将特征向量维度降维到k维，主要用于提取最有价值的信息，是无监督的，PCA降维算法的实现的主要步骤，如下所示：特征标准化，即特征矩阵F中每列特征值减去该列的平均值，已知一个m′×n′特征矩阵F，特征矩阵F中每一列代表一个属性，计算矩阵中每个属性的均值得到有关属性的1×n′均值矩阵将特征矩阵F与均值矩阵相减得到标准化矩阵SF，特征矩阵F、均值矩阵和标准化矩阵SF分别如下所示：计算协方差矩阵COV_SF，表示两个字段的相关性，具体计算公式如下所示：T

其中，m″表示样本数量，即协方差矩阵COV_SF中行数，SF表示SF矩阵的转置矩阵；

求取协方差矩阵COV_SF的特征值和特征向量，具体计算公式如下所示：

(λE‑COV_SF)X＝0 (7)

其中，λ表示特征值，X表示特征向量，E表示单位矩阵；

将多模态特征数据的维度降到k维，选取式(7)计算出来的最大的k个特征值对应的特征向量，得到维度为k的特征向量矩阵DX；将获取的标准化矩阵SF与获取到的k维的特征向量矩阵DX相乘，得到最终的降维后的特征矩阵FF。

4.根据权利要求3所述的基于短视频多模态特征的短视频推荐方法，其特征在于，所述步骤4具体包括：将用户的行为数据映射成对应的评分，用户和短视频之间的交互行为主要有两种，一种是用户是否给某一个短视频点赞，用户给某一个短视频点赞就认为用户喜欢该短视频，用户没有给某一个短视频点赞就认为用户不喜欢该短视频，将点赞这个用户行为映射成用户给该短视频基于like的评分：like值为1，表示用户已点赞短视频；like值为0，表示用户没有点赞短视频，另一种交互行为是用户是否看完某一个短视频，其中，有些用户并没有给短视频点赞的习惯，基于此，当用户把某个短视频浏览完的时候，可以认为用户对该短视频有一定的兴趣，将用户是否浏览完某一个短视频的这个用户行为映射成用户给该短视频基于finish的评分：finish值为1，表示用户已浏览完短视频；finish值为0，表示用户没有浏览完短视频。

5.根据权利要求4所述的基于短视频多模态特征的短视频推荐方法，其特征在于，所述步骤6具体包括：依据得到的αlike、βlike、αfinish和βfinish这几个比值将提取到的k维的短视频标题特征向量矩阵、短视频内容特征向量矩阵和短视频背景音乐特征向量矩阵融合在一起，具体融合方式分为以下2步：最初提取到的短视频的多模态特征矩阵都是k维的，基于获取到的比值，首先确定短视频标题模态特征矩阵、短视频内容模态特征矩阵和短视频背景音乐模态特征矩阵的最终维度，用ti表示最终确定的短视频标题模态特征矩阵的维度，用vi表示最终确定的短视频内容模态特征矩阵的维度，用ai表示确定的短视频背景音乐模态特征矩阵的维度，其中i′∈(like，finish)，需满足的条件如下所示：ti′≤k，其中i′∈(like，finish)

vi′≤k，且vi′＝αi′ti′，其中I∈(like，finish)ai′≤k，且ai′＝βi′ti′，其中i′∈(like，finish)确定了短视频标题模态特征矩阵、短视频内容模态特征矩阵和短视频背景音乐模态特征矩阵的最终维度，使用PCA降维算法分别将短视频标题模态特征矩阵从k维降到ti′维，将短视频内容模态特征矩阵从k维降到vi′维，将短视频背景音乐模态特征矩阵从k维降到ai′维；

将降到对应维度的短视频多模态特征矩阵级联在一起表示短视频，最终得到短视频多模态特征融合矩阵，短视频多模态特征融合矩阵最终的维度是：ti′+vi′+ai′，其中，i′∈(like，finish)。

6.根据权利要求5所述的基于短视频多模态特征的短视频推荐方法，其特征在于，所述步骤7具体包括：依据短视频数据集的数据特点，计算短视频中的人脸面积，人脸的平均美丽度评分以及每个人脸和平均人脸美丽度的差值，以此作为短视频人脸特征，从短视频浏览热度的角度考虑，给短视频的浏览数量和短视频作者的出现数量进行了一个热度排序，依此构造了短视频和作者的热度矩阵，为了防止矩阵维度过大，使用PCA降维算法将维度降到了500维，从时间的角度考虑，将获取到的作者发布微视频的时间戳信息转换成年、月、日、时和分的时间特征，依此构造了短视频的时间特征矩阵。

7.根据权利要求6所述的基于短视频多模态特征的短视频推荐方法，其特征在于，所述步骤8具体包括：将获取到的短视频多模态特征融合矩阵和获取到的手工提取特征矩阵，分别输入到xDeepFM模型和LGB模型去学习训练，依据模型输出结果选用合适的模型进行融合，从而获得更精确的的推荐结果，xDeepFM模型融合了神经网络和FM模型，具体计算公式如下所示：+

其中，σ是Sigmoid函数，是为了将输入值映射到0，1之间，a是原始特征， p分别是*DNN和CIN的输出，w和b分别代表对应的权重和偏置值，是模型需要学习的参数；

σ的具体计算公式如下所示：

LGB模型是一种梯度提升决策树模型，是一种迭代的决策树算法，由多颗决策树组成，每一颗决策树也可以被叫做基学习器或子模型，具体公式如下所示：其中，fm″′(x)表示基学习器，M表示基学习器的个数，学习过程是一个一个的去增加子模型，并在过程中损失函数不断减小，具体公式如下所示：Fm″′(x)＝Fm″′‑1(x)+fm″′(x) (25)

L(Fm″′(x)，y)＜L(Fm″′‑1(x)，y) (26)其中，x表示模型的输入向量，y表示用户的真实评分数据，Fm″′(x)表示经过模型训练预测的评分数据；L符号表示计算经模型预测的评分数据和用户的真实评分数据之间的偏差，即损失函数；

依据这些模型本身的特点以及初步的实验结果，将xDeepFM模型和LGB模型基于权重进行融合，模型融合的想法是想要同时利用到不同模型的优点，让融合的模型充分发挥各个单个模型的优点，融合公式如下所示：其中，Wi″表示融合的权重，modeli″(x)表示融合的子模型，n″表示融合模型的数量，只涉及到xDeepFM模型和LGB模型这两个模型的融合，通过实验确定了最优的融合权重

0.3xDeepFM和0.7LGB。

8.根据权利要求7所述的基于短视频多模态特征的短视频推荐方法，其特征在于，所述步骤9具体包括：使用AUC作为评价指标，具体计算公式如下所示：

其中，M表示正样本的个数，N表示负样本的个数，ranki″′表示第i″′个样本的序号，∑i″′∈positiveClassranki″′表示所有正样本的序号和。