1.一种基于特征解耦增强的文本生成视频方法,其特征在于,包括:将用户文本输入到预先训练好的文本生成视频网络模型中,得到与所述用户文本描述相符的视频;
其中,所述文本生成视频网络模型包括视觉特征解耦网络、跨帧注意力模块及时间注意力模块,所述视觉特征解耦网络用于将视频特征进行解耦分层,所述跨帧注意力模块用于增加解耦分层的视频特征连续三帧的关联,所述时间注意力模块用于增加经过跨帧注意力输出的隐层特征全局帧的关联;
所述文本生成视频网络模型的训练包括:
获取训练视频及对应的训练文本;
对训练视频进行VAE编码后加入高斯噪声,得到噪声特征;
将噪声特征和训练文本输入初始文本生成视频网络模型进行训练,得到训练好的文本生成视频网络模型;
所述将噪声特征和训练文本输入初始文本生成视频网络模型进行训练,得到训练好的文本生成视频网络模型,包括:将噪声特征输入视觉特征解耦网络,得到特征解耦集合;
将特征解耦集合和训练文本输入Unet网络的下采样中进行乘积相似度计算,形成多尺度融合;
将多尺度融合输入跨帧注意力模块,输出跨帧注意力权重;
将跨帧注意力权重输入时间注意力模块,输出时间维度权重向量;
将时间维度权重向量与时间维度权重向量相乘,得到输出特征 ;
直至所述输出特征 能够生成与训练文本对应的视频,得到训练好的文本生成视频网络模型;
所述将多尺度融合输入跨帧注意力模块,得到跨帧注意力权重的矩阵表示为:;
;
其中, 表示当前帧作为查询向量, 表示键向量, 表示值向量,以此来捕捉跨帧的动态变化, 代表整个 的矩阵的维度, 表示查询, 表示键, 表示值矩阵, 表示当前帧特征, 表示以当前帧为基准的前一帧特征, 表示以当前帧为基准的前两帧特征, 表示矩阵转置, 表示跨帧注意力权重的矩阵, 为激活函数,用于增加非线性表示;
所述将跨帧注意力权重输入时间注意力模块,得到时间维度权重向量,包括:将每一帧的通道维度和特征图的宽高进行拼接,组合成一张 的大特征图;
将帧维度 视作通道维度C,对于 的大特征图的每一帧的特征图,进行挤压和激励;
通过平均池化对输入的 的大特征图的每一帧的特征图从一个维度大小为的输入特征压缩为 大小的特征向量,其中, 表示特征图的宽,代表特征向量的高度;
通过激励部分对压缩后的特征向量进行函数计算得到时间维度权重向量;
所述时间维度权重向量的计算过程公式包括:
;
其中, 表示特征向量, 表示上一层的输出,下标 表示帧维度, 表示特征图的第 个位置, 表示将输入 进行挤压操作,在激励部分,加入全连接和激活函数对特征向量进行激励操作,得到0‑1之间的分配权重,过程如下:;
其中, 表示一个全连接矩阵, 表示挤压操作,将一张大小为 的特征图挤压成1x1大小,得到 , 表示根据 计算权重分配, 为Sigmoid激活函数,代表时间注意力权重向量, 表示经过编码并且加入噪声且通过解耦网络的第一个输入。
2.根据权利要求1所述的基于特征解耦增强的文本生成视频方法,其特征在于,所述将特征解耦集合和训练文本输入Unet网络的下采样中进行乘积相似度计算,形成多尺度融合,包括:从解耦特征集合中提取第一个元素,并与潜在特征进行乘积注意力计算,将计算结果输入Unet网络的第一层下采样,并将第一层下采样的输出作为下一个乘积注意力计算的输入,同时提取集合中的第二个元素,继续此过程,并将结果馈送至下一下采样层,直至集合中的所有元素均被取出应用,则形成多尺度融合。
3.根据权利要求2所述的基于特征解耦增强的文本生成视频方法,其特征在于,所述形成多尺度融合的过程公式表示为:;
其中, 表示第 个下采样快要加入的隐层特征, 表示上一层的输出,作为当前层的输入,特征解耦集合中依次取特征和 进行矩阵乘法计算,并加上自身得到 ,表示特征集合。
4.根据权利要求1所述的基于特征解耦增强的文本生成视频方法,其特征在于,所述输出特征 的表达式为:;
其中, 表示 的第 帧特征, 表示放大操作,是上一层输出 点乘 。
5.根据权利要求1所述的基于特征解耦增强的文本生成视频方法,其特征在于,所述视觉特征解耦网络包含四个不同通道的卷积,依次为320,320,640,1280。