利索能及
我要发布
收藏
专利号: 2021110900088
申请人: 广州大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-06-18
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种视频质量评估方法,其特征在于,所述方法包括以下步骤:获取视频数据集,并按照预设比例将所述视频数据集随机划分为训练集和测试集;所述视频数据集为带视频质量分数标注的视频序列;

将所述训练集输入预设视频质量评估网络进行训练,得到视频质量评估模型;所述视频质量评估网络依次包括预处理模块、注意力编码模块和矢量回归模块;所述注意力编码模块包括多个时空注意编码模块;所述时空注意编码模块依次包括时间注意力模块、空间注意力模块和多层感知机模块;

采用所述视频质量评估模型对所述测试集进行预测,得到对应的预测视频质量分数;

其中,所述训练集输入预设视频质量评估网络进行训练,得到视频质量评估模型的步骤包括:将所述训练集输入所述预处理模块进行词嵌入与位置嵌入处理,得到编码输入矩阵;

将所述编码输入矩阵输入所述注意力编码模块进行时间注意力与空间注意力的交互编码,得到视频时空特征;

将所述视频时空特征输入所述矢量回归模块进行回归预测,得到视频质量分数概率向量,并根据所述视频质量分数概率向量,采用矢量化回归损失函数对所述视频质量评估网络进行训练,得到所述视频质量评估模型;

所述矢量回归模块包括多层感知机、softmax激活函数和矢量化回归损失函数;

所述将所述视频时空特征输入所述矢量回归模块进行回归预测,得到视频质量分数概率向量,并根据所述视频质量分数概率向量,采用矢量化回归损失函数对所述视频质量评估网络进行训练,得到所述视频质量评估模型的步骤包括:将所述视频时空特征依次经过所述多层感知机和softmax激活函数处理,得到所述视频质量分数概率向量;所述视频质量分数概率向量表示为:式中,和 分别表示第i个视频质量分数概率向量和特征学习更新得到的质量分数学习向量;MLP(·)和SM(·)分别表示多层感知机和softmax激活函数;

根据视频真实质量分数,得到视频真实质量分数向量;

根据所述视频质量分数概率向量和所述视频真实质量分数向量,采用所述矢量化回归损失函数得到预测损失值;所述矢量化回归损失函数表示为:式中,y和 分别表示视频真实质量分数向量和视频质量分数概率向量;<·>和||·||分别表示内积运算和L2范数;

根据所述预测损失值,对所述视频质量评估网络进行更新训练,得到所述视频质量评估模型。

2.如权利要求1所述的视频质量评估方法,其特征在于,所述将所述训练集输入所述预处理模块进行词嵌入与位置嵌入处理,得到编码输入矩阵的步骤包括:根据等间隔采样,从所述训练集的各个视频中选择预设数目的视频帧;

将各个视频帧按照第一预设大小进行裁剪,得到待分割视频帧序列;

将各个待分割视频帧按照第二预设大小进行分割,得到对应的视频块;

获取各个视频块对应的视频块列向量,并采用时空位置向量对所述视频块列向量进行编码,得到视频块嵌入向量;所述视频块嵌入向量为:式中, 和 分别表示第i个视频的第t帧的第p块视频的视频

块嵌入向量、视频块列向量和时空位置向量; 表示学习矩阵;其中,p∈[S],S表示各个视频帧分割的视频块数目,[S]表示整数集{1,...,S};t∈[F],F表示每个视频选取的视频帧数目,[F]表示整数集{1,...,F};D=P×P×3表示视频块大小;

根据所述视频块嵌入向量,得到对应的编码矩阵,并在所述编码矩阵的第一列位置添加质量分数学习向量,得到所述编码输入矩阵;所述编码输入矩阵表示为:(0,i)

式中,E 和 分别表示第i个视频的编码输入矩阵和质量分数学习向量。

3.如权利要求1所述的视频质量评估方法,其特征在于,所述将所述编码输入矩阵输入所述注意力编码模块进行时间注意力与空间注意力的交互编码,得到视频时空特征的步骤包括:根据所述编码输入矩阵,采用所述时间注意力模块提取视频时域特征;所述视频时域特征表示为:式中, 分别表示第i个视频的第t帧的第p块视频的第l个时间注意力模块提取的视频特征和第l‑1个时间注意力模块提取的视频特征; 表示第i个视频的时间线性映射矩阵; 表示第i个视频的第a个时间注意力系数;A表示注意力的多头总数;

根据所述视频时域特征,采用所述空间注意力模块提取视频空域特征;所述视频空域特征表示为:式中, 分别表示第i个视频的第t帧的第p块视频的第l个空间注意力模块提取的视频特征和第l个时间注意力模块提取的视频特征; 表示第i个视频的空间线性映射矩阵; 表示第i个视频的第a个空间注意力系数;A表示注意力的多头总数;

根据所述视频空域特征,采用所述多层感知机模块,得到所述视频时空特征;所述视频时空特征表示为:式中, 和 分别表示第i个视频的第l个时空注意编码模块得到的视频时空特征和第t帧的第p块视频的第l个空间注意力模块提取的视频特征;LN(·)表示LayerNorm归一化;MLP(·)表示多层感知机。

4.如权利要求1所述的视频质量评估方法,其特征在于,所述根据视频真实质量分数,得到视频真实质量分数向量的步骤包括:将所述视频真实质量分数缩放至预设范围内,得到待编码视频质量分数;

根据所述待编码视频质量分数,得到视频真实质量分数向量。

5.如权利要求1所述的视频质量评估方法,其特征在于,所述采用所述视频质量评估模型对所述测试集进行预测,得到对应的预测视频质量分数的步骤包括:将所述测试集输入到所述视频质量评估模型进行预测,得到对应的视频质量分数概率向量;

采用支持向量回归机对所述视频质量分数概率向量进行解码,得到所述预测视频质量分数。

6.一种视频质量评估系统,其特征在于,能够执行如权利要求1‑5任一 所述的视频质量评估方法,所述系统包括:获取模块,用于获取视频数据集,并按照预设比例将所述视频数据集随机划分为训练集和测试集;所述视频数据集为带视频质量分数标注的视频序列;

训练模块,用于将所述训练集输入预设视频质量评估网络进行训练,得到视频质量评估模型;所述视频质量评估网络依次包括预处理模块、注意力编码模块和矢量回归模块;所述注意力编码模块包括多个时空注意编码模块;所述时空注意编码模块依次包括时间注意力模块、空间注意力模块和多层感知机模块;

预测模块,用于采用所述视频质量评估模型对所述测试集进行预测,得到对应的预测视频质量分数。

7.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利 要求1至5中任一所述方法的步骤。

8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利 要求1至5中任一所述方法的步骤。