利索能及
我要发布
收藏
专利号: 2019111080290
申请人: 杭州电子科技大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于文本自编码器的视频内容描述方法,其特征在于,该方法首先获取视频数据集,然后进行如下操作:

步骤(1).构建卷积神经网络模型提取视频的二维和三维特征;

步骤(2).构建文本自编码器,即通过文本卷积网络作为编码器提取文本隐空间特征,并采用多头注意力残差网络作为解码器重构文本;具体方法是:(2‑1).用于描述视频的有序词汇表记为集合 对于不在词汇表中的单词用符号表示,对于补全的单词用符号表示;视频 对应的描述语句集合为其中第k个单词为 L为描述语句的长度,单词wk采取独热编码, 为词汇表单词个数;

(2‑2).处理视频对应的文本:先过滤长度超过L的描述文本并利用符号将长度不足L的描述文本进行补全,再将处理后的文本通过词汇表 进行映射得到对应内容描述(2‑3).通过文本卷积网络作为编码器提取文本隐空间特征:设给定视频 的类别标记为 其中C表示视频集合所包含的类别总数,根据上述得到的视频内容描述及其标记 构建文本卷积神经网络作为分类器;对视频内容描述 进行词嵌入操作得到其表示矩阵 其中 为单词yk的词嵌入表示向量, 为词嵌入权重矩阵;利用文本卷积神经网络对词嵌入表示矩阵M提取文本隐空间特征矩阵Ftext;

(2‑4).通过视频文本分类对文本卷积神经网络的参数进行更新:利用一维最大池化和随机失活操作,即以0.5概率对特征的每一个位置赋值0,将文本隐空间特征矩阵Ftext进行映射得到特征向量 用于分类;利用映射矩阵 和偏置项将特征fsc映射为类别空间向量 fclass=Wprojextfsc+bproject,其中Wproject和bproject将在网络训练中学习得到;用Softmax(·)函数对类别空间向量fclass进行归一化处理得到各类别的概率分布 其中

通过极大似然估计定义分类损失 其中指示函数Ik(·)表示视频样本是否属于第k个类别, 为对应类别k的概率值,Z为训练视频的文本描述总数,并通过自适应矩估计算法最小化该分类损失;

(2‑5).通过采用多头注意力残差网络作为解码器重构文本:将视频 对应的描述语句集合 中的单词整体向后移动一位,记为 将每个单词进行步骤(2‑3)的词嵌入操作得到新的词嵌入表示矩阵M′并进行位置编码;

利用映射矩阵 和偏置向量 将多头注意力残差网络的输出矩阵 映射到具有 维度的向量空间,并用Softmax(·)函数进行归一化处理,得到各单词的概率分布矩阵 通过极大似然估计方法定义模型的文本自编码器重构损失 其中指示函数Ik(·)表示正确单词是否位于有序词汇表 的第k个位置, 为对第j个视频预测文本中第t个位置预测为有序词汇表 的第k个位置的预测概率值,Z为训练视频的文本描述总数;计算概率分布矩阵 的各列向量概率值最大的索引,并从有序词汇表中找到索引对应的单词作为视频描述的单词;

步骤(3).通过自注意力机制及全连接映射得到估计文本隐空间特征;

步骤(4).通过自适应矩估计算法交替优化上述模型,对新视频利用已构建的文本自编码器和卷积神经网络得到对应的视频内容描述。

2.如权利要求1所述的一种基于文本自编码器的视频内容描述方法,其特征在于步骤(1)具体方法是:

(1‑1).设给定视频 含有N幅帧图像,表示为{X1,X2,…Xi,…,XN},其中 为第i帧图像,w,h,c分别为视频帧的宽度、高度、通道数;

(1‑2).构建卷积神经网络模型提取视频的二维和三维特征,具体是:对每个视频进行等间隔采样256帧,将采样后的每一帧裁剪为224×224大小的图像该视频处理后的所有帧集合记作

将视频对应的视频帧 以16帧为间隔,划分成16个视频片段,记作其中

利用在ImageNet数据集上预训练好的ResNet50卷积神经网络提取视频帧 中每一帧的特征,将所有帧的特征进行拼接得到视频的外观特征表示矩阵为 提取视频帧 中每一帧的特征是取平均池化层后的输出,并拉直为向量;

利用在Sports‑1M数据集上预训练好的C3D卷积神经网络提取每一个视频片段动态特征,取全连接层fc6后的输出,将所有视频片段的特征进行拼接得到视频的动态特征表示矩阵

3.如权利要求1所述的一种基于文本自编码器的视频内容描述方法,其特征在于步骤(3)具体方法是:

将视频的外观特征表示矩阵Fappearance在帧级维度上进行最大池化操作,得到池化后的表示矩阵

利用步骤(2)的注意力机制模块对视频外观特征表示矩阵 和视频动态特征表示矩阵Fdynamic进行处理,得到两个矩阵记为 和 并进行拼接;

利用一个大小为6144×He的全连接层将拼接后的特征进行映射,得到估计文本隐空间特征矩阵

利用估计文本隐空间特征矩阵 和原文本隐空间特征矩阵Ftext计算视频文本特征表示误差,即 其中||·||F表示矩阵Frobenious范数。

4.如权利要求1所述的一种基于文本自编码器的视频内容描述方法,其特征在于步骤(4)具体方法是:

(4‑1).利用自适应矩估计算法交替优化自编码器重构损失 和视频文本特征表示误差 直至模型收敛,得到最终的视频内容描述模型;

(4‑2).对于新视频 先利用步骤(2)已构建的卷积神经网络提取视频的二维和三维特征;再利用步骤(2)已构建的文本自编码器中的解码器计算概率分布矩阵 的各列向量概率值的最大索引,然后从有序词汇表 中找到该最大索引对应的单词作为视频描述的单词,得到对应的视频内容描述。

5.如权利要求1所述的一种基于文本自编码器的视频内容描述方法,其特征在于:所述的文本卷积神经网络是利用一组大小分别为2×L、3×L、4×L、5×L的卷积核,其中每种不同大小的卷积核数目均设置为L,然后对词嵌入表示矩阵M进行卷积计算,并对卷积后的特征进行拼接得到

6.如权利要求1所述的一种基于文本自编码器的视频内容描述方法,其特征在于:所述的位置编码是指将词嵌入表示矩阵M′用三角函数刻画,即其中pos表示单词的位置序号,feaq表示单词的第q个特征维度,然后将计算得到的值与M′对应元素相加的结果记为

7.如权利要求1所述的一种基于文本自编码器的视频内容描述方法,其特征在于:所述的多头注意力残差网络由多个注意力机制模块组成,这些模块是由残差网络连接;残差网络为两层全连接层处理后特征与未处理的特征相加,未处理特征即为自注意力机制模块的结果 或 多头注意力残差网络的输出矩阵记为所述的注意力机制模块是指先将自编码器的输入特征Fgt复制三份得到三个矩阵,分别记为询问矩阵、键矩阵和价值矩阵,然后用大小为1×1的卷积核对其分别进行卷积计算并对处理后的询问矩阵和键矩阵相乘,再利用Softmax(·)函数进行归一化处理得到则整个注意力机制模块的输出矩阵记为其中Fgt,k表示矩阵Fgt第k个列向量,参数 为待学习的参数,⊙表示点积运算,即向量对应元素相乘;将Fgt复制两份分别记为询问矩阵和键矩阵,将 作为价值矩阵再次进行上述操作,得到输出矩阵