利索能及
我要发布
收藏
专利号: 2023108020445
申请人: 南京信息工程大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-22
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.基于时空解耦与自注意力差分LSTM的视频预测方法,其特征在于,包括:S1、构建时空解耦网络,解耦视频的时间动态特征和空间静态特征;

S2、利用差分运算,设计包含遗忘门、输入门和更新门的动态差分模型;

S3、在注意力基础上设计一个门控机制,将长时记忆与被注意的特征深度融合,组建新的全局自注意力模型;

S4、将动态差分模型和全局自注意力模型嵌入LSTM单元,组成新的DISA‑LSTM单元,并使用对角循环体系结构堆叠该单元,构建DISA‑LSTM预测网络;

S5、基于卷积自编码器构建网络整体架构,并联合对抗性损失函数、相似性损失函数、重构损失函数和预测损失训练视频预测模型;

其中,步骤S1中,时空解耦网络由动态编码器和静态编码器组成,解耦视频的时间动态特征和空间静态特征的具体内容为:(1)解耦视频时间动态特征的具体内容

构建动态编码器:使用6个步长为2、大小为4×4的卷积核构建动态编码器,并在前5层卷积后使用批归一化处理操作和Leaky Relu激活函数;在最后的输出层使用Tanh激活函数,将输出的时间动态特征向量规范化到‑1到1之间;

提取时间动态特征:在动态编码器中引入对抗性损失函数,利用动态编码器和特征鉴别器的对抗训练使得时间动态特征从空间静态中完全解耦,具体公式为:其中,Ladversarial表示对抗性损失函数,Ed表示动态编码器,T表示特征鉴别器, 表示第m段视频的第t帧视频序列, 表示第m段视频的第t+k帧视频序列, 表示第n段视频的第t帧视频序列, 表示第n段视频的第t+k帧视频序列;

特征鉴别器使用三层1×1卷积和Relu激活函数,并在最后一层使用Sigmoid函数将鉴别器输出的概率向量映射到特定区间;

(2)解耦视频空间静态特征的具体内容

使用与动态编码器相同的架构构建静态编码器,并引入相似性损失函数,利用平方差最大化相邻时间步的空间静态特征的相似性,具体公式为:其中,Lsimilarity表示相似性损失函数,Es表示静态编码器,Xt表示第t帧视频序列,Xt+k表示第t+k帧视频序列;

将解耦得到的视频时间动态特征和空间静态特征进行融合,具体内容为:其中, 表示第t到t+k帧的视频序列解耦后的时间动态特征,表示第t到t+k帧的视频序列解耦后的空间静态特征, Xt:t+k表示第t到t+k帧的视频序列;Ht:t+k表示第t到t+k帧视频序列的时间动态特征和空间静态特征融合后的解耦特征;

步骤S5中,视频预测模型的具体内容为:

由编码器、DISA‑LSTM预测网络和解码器三个部分组成基于卷积自编码器构建的网络整体架构,其中:

编码器由时空解耦网络组成,该网络包含动态编码器和静态编码器,解耦视频的时间动态特征和空间静态特征,并将视频数据编码成较小维度的潜在向量表示;

经过编码器的特征向量表示,进一步融合后进入DISA‑LSTM预测网络,通过学习内部潜在关系生成未来帧;

解码器由反卷积组成,将未来帧序列与解耦的空间静态特征进行融合,并经过解码器重构回原始像素;

通过解耦损失和预测损失训练视频预测模型,其中解耦损失包含对抗损失、相似性损失和重构损失,具体公式为:

L=Lreconstruction(Es,Ed,D)+λsimLsimilarity(Es)+λadv(Ladversarial(Ed)+Ladversarial(T))+λmseLMSE;

其中,Lreconstruction是重构损失函数;LMSE是预测损失,使用均方误差作为模型的损失回传;D表示解码器;λsim、λadv和λmse是用于平衡不同损失函数的收敛速度的超参数。

2.根据权利要求1所述的基于时空解耦与自注意力差分LSTM的视频预测方法,其特征在于,步骤S2中,动态差分模型的具体设计内容为:接受相邻时间步隐藏状态的差分信息,并在经过遗忘门、输入门和更新门后与上一时间步的长时记忆细胞融合,组成差分特征,具体公式如下:其中,σ表示Sigmoid激活函数,tanh表示tanh激活函数,*表示卷积操作,⊙表示哈达玛乘积,W′hf、W′hi、W′hg为二维卷积核,b'f、b′i、b'g为偏置,t表示时刻,l表示层,ft'、i′t和g′t分别表示用于筛选差分信息的遗忘门、输入门和更新门, 表示相邻时间步隐藏状态的差分信息, 表示上一时间步的长时记忆细胞, 表示差分特征。

3.根据权利要求1所述的基于时空解耦与自注意力差分LSTM的视频预测方法,其特征在于,步骤S3中,组建新的全局自注意力模型的具体步骤为:S301、给隐藏状态分配不同的1×1权重{Wq,Wk,Wv},将其映射到查询向量、键向量和值向量的三个不同空间,利用 计算第j个键向量和第e个查询向量的相似度分数,并利用softmax激活函数对该分数进行归一化处理,得到各个点的相似分布,将相似分布乘以对应值向量得到注意力特征,具体公式为:其中,Q表示查询向量,K表示键向量,V表示值向量,Wq、Wk和Wv表示给隐藏状态分配的三个不同的权重, 表示隐藏状态,Z表示注意力特征,C×H×W表示通道的数×高×宽,N=H×W,e,j表示查询向量和键向量的位置索引,Qe表示第e个查询向量, 表示第j个键向量的转置,dk表示键向量的维度,T表示转置;

S302、将长时记忆与注意力特征、隐藏状态深度融合,具体公式如下:其中,i、g和o分别表示全局自注意力模块中的输入门、更新门和输出门,Wi;h、Wi;z、Wg;h、Wg;z、Wo;h、Wo;z表示二维卷积核,bi;、bg;、bo;表示偏置, 表示更新后的长时记忆和隐藏状态,表示经过全局注意力模块的隐藏状态。

4.根据权利要求1所述的基于时空解耦与自注意力差分LSTM的视频预测方法,其特征在于,步骤S4中,构建DISA‑LSTM预测网络的具体步骤为:S401、利用动态差分模型替换LSTM单元中的遗忘门,并将当前时间步的隐藏状态和上一时刻的长时记忆输入到全局自注意力模型中,组成新的DISA‑LSTM单元;

S402、堆叠三层记忆单元,第一层使用ST‑LSTM单元,其他两层使DISA‑LSTM单元;采用对角循环结构构建DISA‑LSTM预测网络,其中差分信息在网络中对角层级传递,经过全局自注意力模型的隐藏状态在时间维度传递。

5.基于时空解耦与自注意力差分LSTM的视频预测系统,其特征在于,包括:视频特征解耦模块,用于构建时空解耦网络,解耦视频的时间动态特征和空间静态特征;

动态差分模型设计模块,用于利用差分运算,设计包含遗忘门、输入门和更新门的动态差分模型,取代LSTM单元的遗忘门;

深度融合特征模块,用于在注意力基础上设计一个门控机制,将长时记忆与被注意的特征深度融合,组建新的全局自注意力模型;

视频预测模型训练模块,用于基于卷积自编码器构建网络整体架构,并联合对抗性损失函数、相似性损失函数、重构损失函数和预测损失训练视频预测模型;

其中,视频特征解耦模块中,时空解耦网络由动态编码器和静态编码器组成,解耦视频的时间动态特征和空间静态特征的具体内容为:(1)解耦视频时间动态特征的具体内容

构建动态编码器:使用6个步长为2、大小为4×4的卷积核构建动态编码器,并在前5层卷积后使用批归一化处理操作和Leaky Relu激活函数;在最后的输出层使用Tanh激活函数,将输出的时间动态特征向量规范化到‑1到1之间;

提取时间动态特征:在动态编码器中引入对抗性损失函数,利用动态编码器和特征鉴别器的对抗训练使得时间动态特征从空间静态中完全解耦,具体公式为:其中,Ladversarial表示对抗性损失函数,Ed表示动态编码器,T表示特征鉴别器, 表示第m段视频的第t帧视频序列, 表示第m段视频的第t+k帧视频序列, 表示第n段视频的第t帧视频序列, 表示第n段视频的第t+k帧视频序列;

特征鉴别器使用三层1×1卷积和Relu激活函数,并在最后一层使用Sigmoid函数将鉴别器输出的概率向量映射到特定区间;

(2)解耦视频空间静态特征的具体内容

使用与动态编码器相同的架构构建静态编码器,并引入相似性损失函数,利用平方差最大化相邻时间步的空间静态特征的相似性,具体公式为:其中,Lsimilarity表示相似性损失函数,Es表示静态编码器,Xt表示第t帧视频序列,Xt+k表示第t+k帧视频序列;

将解耦得到的视频时间动态特征和空间静态特征进行融合,具体内容为:其中, 表示第t到t+k帧的视频序列解耦后的时间动态特征,表示第t到t+k帧的视频序列解耦后的空间静态特征, Xt:t+k表示第t到t+k帧的视频序列;Ht:t+k表示第t到t+k帧视频序列的时间动态特征和空间静态特征融合后的解耦特征;

视频预测模型训练模块中,视频预测模型的具体内容为:由编码器、DISA‑LSTM预测网络和解码器三个部分组成基于卷积自编码器构建的网络整体架构,其中:

编码器由时空解耦网络组成,该网络包含动态编码器和静态编码器,解耦视频的时间动态特征和空间静态特征,并将视频数据编码成较小维度的潜在向量表示;

经过编码器的特征向量表示,进一步融合后进入DISA‑LSTM预测网络,通过学习内部潜在关系生成未来帧;

解码器由反卷积组成,将未来帧序列与解耦的空间静态特征进行融合,并经过解码器重构回原始像素;

通过解耦损失和预测损失训练视频预测模型,其中解耦损失包含对抗损失、相似性损失和重构损失,具体公式为:

L=Lreconstruction(Es,Ed,D)+λsimLsimilarity(Es)+λadv(Ladversarial(Ed)+Ladversarial(T))+λmseLMSE;

其中,Lreconstruction是重构损失函数;LMSE是预测损失,使用均方误差作为模型的损失回传;D表示解码器;λsim、λadv和λmse是用于平衡不同损失函数的收敛速度的超参数。

6.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述方法的步骤。

7.一种计算机可读的存储介质,所述计算机可读的存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行所述权利要求1至4中任一项所述的方法。