1.基于时序高斯混合空洞卷积的语义重构视频描述方法,其特征在于,该方法首先获取包含文本描述的视频数据集合,然后进行如下操作:步骤(1)对原始视频均匀采样,利用卷积神经网络提取采样后视频的外观特征和动作特征,并将两种特征进行拼接,得到视频特征表示;
步骤(2)构建时序高斯混合空洞卷积编码器,输入为视频特征表示,输出为时序高斯特征;具体是:
(2‑1)构建时序高斯混合空洞卷积编码器,捕捉视频的长期时序上下文信息,该编码器由多层时序高斯混合空洞卷积层构成,编码器的卷积核用参数矩阵 表示,由M个高斯分布生成,L表示卷积核时序长度, 为实数域,该参数矩阵的第m行l列的元素表示为:其中,
和 分别表示第m个高斯分布的均值和标准方差; 作为归一化常数,使得通过学习一组注意力权重 让多个高斯分布在时序动态之间共享,Cout表示输出通道数量;将softmax函数应用于注意力权重得到注意力权重矩阵使得每个输出通道对应的权重之和为1,即 Aj,m表示第m个高斯分布作用于第j个通道的注意力权重,下标j表示注意力权重矩阵W的行索引,对应通道,s表示注意力权重矩阵W的列索引;
利用卷积核 和注意力权重矩阵 获得第k个时序高斯混合卷积核(2‑2)第一层时序高斯混合空洞卷积层的卷积核为 利用第k个时序高斯混合卷积核 对视频特征表示F进行空洞卷积操作,卷积结果 作为第一层输出结果1
的第k个通道,最终第一层时序高斯混合空洞卷积层的输出为O,如下:符号*表示空洞卷积操作;
(2‑3)编码器包含Q层时序高斯混合空洞卷积层,第q个时序高斯混合空洞卷积层的卷q‑1
积核为 其输入为第q‑1层的输出 对输入特征O 进行平均池化处理,获得聚合特征 再通过一维卷积利用聚合特征计算通道权重Wc=σq‑1
(conv1d(X )), σ(·)表示sigmoid函数,conv1d(·)表示一维卷积操作;得到每q‑1
个输入通道的权重后,对O 的通道进行加权处理,获得输入特征 将第k个通道分别与第k个时序高斯空洞卷积核进行空洞卷积得到第k个输出通道的结果 继q
而得到第q层的输出O ,即 最终Q个时序高斯混合空洞卷积层的输出为Q
(2‑4)利用1×1大小的卷积层和ReLU激活函数对输出特征O的Cout个通道映射为单个通Q
道,获得编码器输出时序高斯特征矩阵O=ReLU(conv1d(O)), 作为包含时序信息的视频特征将被输入解码器;
步骤(3)利用两层长短时记忆神经网络构建解码器,输入为时序高斯特征和文本描述,输出为生成语句概率分布和隐藏向量,计算交叉熵损失;
步骤(4)建立语义重构网络,输入为解码器的隐藏向量,计算语义重构损失;
步骤(5)利用随机梯度下降法优化由编码器、解码器和语义重构网络组成的视频描述模型,对新视频依次通过步骤(1)~(3)得到生成语句概率分布,再利用贪心搜索算法获得视频描述语句。
2.如权利要求1所述的基于时序高斯混合空洞卷积的语义重构视频描述方法,其特征在于,步骤(1)具体是:
(1‑1)对原始视频均匀采样n个视频帧,采样后的视频 其中,三维张量Xi为第i帧图像, 为实数域,w、h、c分别为视频帧的宽度、高度、通道数;
视频 对应的描述语句 其中,T为描述语句长度,yt为描述语句的第t时间步的单词,V为词汇表的单词个数;
(1‑2)利用深度2D卷积神经网络GoogLeNet提取视频的外观特征 利用深度3D卷积神经网络C3D提取视频的动作特征 其中,dr、da分别为视频帧外观特征和动作特征维度大小;将外观特征和动作特征按照特征维度进行拼接,得到视频特征表示其中,视频特征维度大小d=dr+da。
3.如权利要求2所述的基于时序高斯混合空洞卷积的语义重构视频描述方法,其特征在于,步骤(3)具体是:
(3‑1)利用两层LSTM构建解码器,第一层LSTM第t时间步LSTM单元的输入为第t‑1时间步单词 以及第一层LSTM第t‑1时间步LSTM单元的隐藏向量 其输出dh表示隐藏向量维度, 表示单词嵌入矩阵,lstm1(×)表示第一层长短时记忆神经网络;
第二层LSTM第t时间步LSTM单元的输入为第一层LSTM第t时间步的隐藏向量 和第二层LSTM第t‑1时间步的隐藏向量 以及编码器输出的包含时序信息的视频特征O,其输出为隐藏向量 为注意力模块,βt,δ∈(0,1)表示隐藏向量 和第δ帧视频特征Oδ的相关性大小,lstm2(·)表示第二层长短时记忆神经网络;
(3‑2)利用全连接层及softmax函数计算第t时间步的单词yt的概率分布,其概率分布向量 其中,θdecoder表示解码器参数,表示全连接层权重矩阵和偏置向量;计算模型的交叉熵损失其中,y0是句子 的开始标志符,yT+1是句子 的结束标志符。
4.如权利要求3所述的基于时序高斯混合空洞卷积的语义重构视频描述方法,其特征在于,步骤(4)具体是:
(4‑1)利用两个全连接层fc1和fc2构建语义重构网络,利用解码器隐藏向量重构真实语句的概率分布;分别将解码器中的隐藏向量 和 映射为维度为V的单词概率分布向量,即 和 其中, 表
示权重矩阵, 表示偏置向量;
(4‑2)利用Kullback‑Leibler散度衡量生成语句和真实语句的概率分布差异,作为语义重构损失 即 其中,DKL(·||·)表示两种概率分布之间的Kullback‑Leibler散度, 为真实语句概率分布, 为生成语句的概率分布,τ为词汇表的单词索引。
5.如权利要求4所述的基于时序高斯混合空洞卷积的语义重构视频描述方法,其特征在于,步骤(5)具体是:
(5‑1)视频描述模型总体损失函数为 其中,λ>0为交叉熵损失和语义重构损失的权衡系数,利用随机梯度下降法优化由编码器、解码器和语义重构网络构成的视频描述模型;
(5‑2)输入新视频 首先依次经过步骤(1)~(3)得到第一个单词的概率分布向量为编码器输出的时序高斯特征,再通过贪心搜索算法将最大概率对应索引的单词看作当前时刻生成的单词;
(5‑3)重复步骤(3),依次得到单词{y′2,y′3,...,y′T'},最终获得视频描述语句其中,T′为生成语句长度。