买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于特征解耦增强的文本生成视频方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于特征解耦增强的文本生成视频方法

￥31200

专利号： 2024111322784

申请人：南京信息工程大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-06-16

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于特征解耦增强的文本生成视频方法，其特征在于，包括：将用户文本输入到预先训练好的文本生成视频网络模型中，得到与所述用户文本描述相符的视频；

其中，所述文本生成视频网络模型包括视觉特征解耦网络、跨帧注意力模块及时间注意力模块，所述视觉特征解耦网络用于将视频特征进行解耦分层，所述跨帧注意力模块用于增加解耦分层的视频特征连续三帧的关联，所述时间注意力模块用于增加经过跨帧注意力输出的隐层特征全局帧的关联；

所述文本生成视频网络模型的训练包括：

获取训练视频及对应的训练文本；

对训练视频进行VAE编码后加入高斯噪声，得到噪声特征；

将噪声特征和训练文本输入初始文本生成视频网络模型进行训练，得到训练好的文本生成视频网络模型；

所述将噪声特征和训练文本输入初始文本生成视频网络模型进行训练，得到训练好的文本生成视频网络模型，包括：将噪声特征输入视觉特征解耦网络，得到特征解耦集合；

将特征解耦集合和训练文本输入Unet网络的下采样中进行乘积相似度计算，形成多尺度融合；

将多尺度融合输入跨帧注意力模块，输出跨帧注意力权重；

将跨帧注意力权重输入时间注意力模块，输出时间维度权重向量；

将时间维度权重向量与时间维度权重向量相乘，得到输出特征；

直至所述输出特征能够生成与训练文本对应的视频，得到训练好的文本生成视频网络模型；

所述将多尺度融合输入跨帧注意力模块，得到跨帧注意力权重的矩阵表示为：；

；

其中，表示当前帧作为查询向量，表示键向量，表示值向量，以此来捕捉跨帧的动态变化，代表整个的矩阵的维度，表示查询，表示键，表示值矩阵，表示当前帧特征，表示以当前帧为基准的前一帧特征，表示以当前帧为基准的前两帧特征，表示矩阵转置，表示跨帧注意力权重的矩阵，为激活函数，用于增加非线性表示；

所述将跨帧注意力权重输入时间注意力模块，得到时间维度权重向量，包括：将每一帧的通道维度和特征图的宽高进行拼接，组合成一张的大特征图；

将帧维度视作通道维度C，对于的大特征图的每一帧的特征图，进行挤压和激励；

通过平均池化对输入的的大特征图的每一帧的特征图从一个维度大小为的输入特征压缩为大小的特征向量，其中，表示特征图的宽，代表特征向量的高度；

通过激励部分对压缩后的特征向量进行函数计算得到时间维度权重向量；

所述时间维度权重向量的计算过程公式包括：

；

其中，表示特征向量，表示上一层的输出，下标表示帧维度，表示特征图的第个位置，表示将输入进行挤压操作，在激励部分，加入全连接和激活函数对特征向量进行激励操作，得到0‑1之间的分配权重，过程如下：；

其中，表示一个全连接矩阵，表示挤压操作，将一张大小为的特征图挤压成1x1大小，得到，表示根据计算权重分配, 为Sigmoid激活函数，代表时间注意力权重向量，表示经过编码并且加入噪声且通过解耦网络的第一个输入。

2.根据权利要求1所述的基于特征解耦增强的文本生成视频方法，其特征在于，所述将特征解耦集合和训练文本输入Unet网络的下采样中进行乘积相似度计算，形成多尺度融合，包括：从解耦特征集合中提取第一个元素，并与潜在特征进行乘积注意力计算，将计算结果输入Unet网络的第一层下采样，并将第一层下采样的输出作为下一个乘积注意力计算的输入，同时提取集合中的第二个元素，继续此过程,并将结果馈送至下一下采样层，直至集合中的所有元素均被取出应用，则形成多尺度融合。

3.根据权利要求2所述的基于特征解耦增强的文本生成视频方法，其特征在于，所述形成多尺度融合的过程公式表示为：；

其中，表示第个下采样快要加入的隐层特征，表示上一层的输出，作为当前层的输入，特征解耦集合中依次取特征和进行矩阵乘法计算，并加上自身得到，表示特征集合。

4.根据权利要求1所述的基于特征解耦增强的文本生成视频方法，其特征在于，所述输出特征的表达式为：；

其中，表示的第帧特征，表示放大操作，是上一层输出点乘。

5.根据权利要求1所述的基于特征解耦增强的文本生成视频方法，其特征在于，所述视觉特征解耦网络包含四个不同通道的卷积，依次为320，320，640，1280。