买专利、卖专利、专利购买、专利交易、专利出售、高企申报-基于文本生成图像技术的文本视频检索优化方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

基于文本生成图像技术的文本视频检索优化方法

￥31200

专利号： 2024108021067

申请人：南京信息工程大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-07-01

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.基于文本生成图像技术的文本视频检索优化方法，其特征在于，包括以下步骤：步骤1，文本到图像的生成：通过在给定数据集的文本信息下，使用生成模型Stable Diffusion生成两张以上符合文本描述的图像，并通过筛选选出最符合文本文意的图像，同时对生成的图像进行编号保存；

步骤2，采用知识蒸馏策略训练视频编码器与文本编码器：首先从CLIP模型中获取ViT‑L/14的预训练模型作为教师模型，然后通过知识蒸馏方法，训练一个更轻量级的ViT‑B/32 CLIP模型；

步骤3，提取数据特征：对原始视频数据进行自适应采样策略，根据视频内容的变化动态调整采样频率，同时保证每个视频所采样的帧数一致，提取到关键帧，将关键帧划分为图像块，输入步骤2得到的视频编码器提取不同视频帧的细粒度特征，为帧级别的特征，然后对不同视频帧的细粒度特征进行平均化获得粗粒度的特征，为视频级别的特征；对生成的图像进行切块，然后输入到图像编码器中获得图像特征；利用步骤2得到的文本编码器对文本信息进行特征提取，获得单词级别的特征与句子级别的特征；

步骤4，视频生成文本：通过给定的视频的关键帧，通过CLIP与GPT‑2语言模型生成输入图像的文本描述信息；通过基于Transformer的GPT‑2语言模型来生成下一个单词，使用校准的CLIP损失来引导模型生成描述图像的句子；

步骤5，融合视频字幕：基于步骤4生成的文本描述信息，通过文本编码器进行特征提取，将生成的字幕特征与视频特征进行注意力加权融合，得到更具代表性的视频特征；

步骤6，多粒度特征交互：利用粗粒度的特征，与视频帧的细粒度特征、词的细粒度特征、整段句子的粗粒度特征进行交互，计算各粒度之间的相似度；

步骤7，相似度计算及损失函数优化：计算生成图像特征与视频特征的相似度，以及融合后的视频特征与文本特征的相似度，设计对称交叉熵损失，结合相似度计算结果进行模型优化训练。

2.根据权利要求1所述的方法，其特征在于，步骤1包括：下载预训练的Stable Diffusion模型，并通过脚本更换所需的文本和保存地址；

构建一个Python脚本，用于加载给定数据集中的文本信息；

使用Stable Diffusion模型将文本信息生成为图像，使用生成器模型将文本与CLIP图像嵌入相关联；

将生成的CLIP图像嵌入输入到解码器中，生成最终的图像。

3.根据权利要求2所述的方法，其特征在于，步骤1中，生成最终的图像的过程的公式为：，

其中x表示最终生成的图像，y表示输入的文本说明，表示CLIP图像嵌入，表示在给定输入文本说明y的情况下，生成最终图像x的概率；表示图像x和对应的CLIP图像嵌入的联合条件概率，表示在生成CLIP图像嵌入和输入的文本说明y条件下生成图像x的条件概率，表示生成CLIP图像嵌入的条件概率。

4.根据权利要求3所述的方法，其特征在于，步骤2中，使用Transformer模型作为图像编码器；

选择ViT‑L/14的CLIP模型作为教师模型，用于引导学生模型进行知识蒸馏；使用标记的领域数据集对教师模型进行训练，所述标记的领域数据集包括图像和文本描述，教师模型通过图像编码器和文本编码器将图像和文本描述映射到共享的特征空间中，训练过程中，使用交叉熵损失函数来最小化预测概率与实际标签之间的误差，以更新教师模型的参数，所述参数包括图像编码器中所有层的权重和偏置，文本编码器中每一层的权重与偏置，投影层的权重和偏置参数；在训练完成之后，保存训练好的教师模型及对应的文本特征，所述文本特征将在后续的学生模型训练中作为共享的类别向量；

接着选择更轻量级别的ViT‑B/32 CLIP模型作为学生模型；在未标记的领域数据集上训练学生模型，通过教师模型的知识进行引导；学生模型的目标是模仿教师模型的输出结果，以学习教师模型中地跨模态知识；通过计算图像特征和文本特征之间的相似度来引导学生模型地学习过程；

在训练过程中，学生模型通过观察和学习教师模型的输出结果，逐渐迁移和吸收教师模型中的知识。

5.根据权利要求4所述的方法，其特征在于，步骤3包括：对于视频，首先进行自适应采样，选择16个视频关键帧，然后对每个关键帧进行切割，并将切割后的图像块输入到图像编码器中，得到16个关键帧的编码特征；为了得到粗粒度的特征，对16个关键帧的编码特征进行平均池化，得到粗粒度的视频特征；同时，还保留了未平均池化前的每个视频帧的编码特征，作为细粒度的特征。

6.根据权利要求5所述的方法，其特征在于，步骤3还包括：对于文本信息，采用步骤2训练得到的文本编码器对文本进行编码，文本信息在输入编码器之前，插入CLS标记，然后获取编码特征；所述CLS标记被视为整段句子的特征表示。

7.根据权利要求6所述的方法，其特征在于，步骤4包括：将步骤3中所获得的关键帧用于代表视频的主要内容，然后将关键帧输入到预训练的CLIP模型中的图像编码器中，获取图像的嵌入表示：设定关键帧为I，CLIP模型的图像编码器为，图像嵌入表示为：，

然后使用简单的初始文本提示，作为生成描述文本的开头，接着使用GPT‑2语言模型基于初始文本提示生成描述文本；设为生成的第i个词，为之前生成的词，则句子中第i个单词的条件概率推理为：，

计算前512个候选词的潜力分数，设为第i个位置的第k个候选词构成的句子，则CLIP的潜力分数为：，

其中为CLIP嵌入的余弦距离，为控制目标分布锐度的温度超参数，exp是自然指数函数，表示图像I与第i个位置的第k个候选词构成的句子之间的关联度，符号表示成比例，表示文本编码器的输出；

接着计算CLIP损失，CLIP损失定义为CLIP潜力分布与GPT‑2语言模型下一个词的目标分布之间的交叉熵损失：，

其中表示第m个时间步生成的候选词的潜力分布；表示语言模型预测的下一个词的目标分布；CE表示交叉熵损失函数；

最后在生成每个词的时候，调整上下问的缓存，用来优化生成的文本与图像的匹配性，具体的优化问题为：，

其中表示GPT‑2语言模型在第q个时间步生成的当前词及对应的上下文缓存；F表示给定的图像；表示一个正则化项，使用交叉熵损失来保持生成文本的流畅性和连贯性；表示一个超参数；表示使用原始上下文缓存生成的词分布；min表示最小化；

在推理的时候，通过梯度下降更新上下文缓存：

，

其中表示学习率，表示给定当前上下文缓存后生成下一个词的概率分布；表示相对于上下文缓存的概率分布的梯度；表示为梯度二范数的平方，用于对梯度进行归一化；表示赋值操作。

8.据权利要求7所述的方法，其特征在于，步骤5包括：使用GPT‑2语言模型从一个初始提示开始，通过逐步预测下一个单词的方式生成字幕；

使用交叉注意力的Transformer来实现视频和字幕之间的特征交互，具体包括：通过参数为的交叉注意力Transformer，对视频帧的嵌入特征和生成字幕的嵌入特征行交叉注意力计算；通过参数为的Transformer编码器，对交互后的特征进行编码；

交叉注意力的计算公式为：

，

其中，表示参数为的交叉注意力Transformer，负责计算视频和字幕之间的交叉注意力；表示参数为的Transformer编码器，用于对交互后的特征进行编码，表示一种协同注意力机制；

在视频帧的嵌入特征和生成字幕的嵌入特征交互完成后，通过3层Transformer层对时间信息进行建模；

通过协同注意力机制，将视觉特征和文本特征进行相互影响，通过注意力机制相互关注对方，从而生成更具代表性的联合特征表示：视频帧的嵌入特征和生成字幕的嵌入特征通过Transformer进行特征的融合，获得一个联合特征表示，然后使用注意力机制来计算不同模态特征之间的相互注意力权重，最后根据计算出的注意力权重，对视频帧的嵌入特征和生成字幕的嵌入特征进行加权和更新，生成最终的融合特征表示，记为更具代表性的视频特征。

9.根据权利要求8所述的方法，其特征在于，步骤6包括：通过如下公式计算视频与句子之间的特征相似度向量：，

其中，表示句子级别的特征，上标T表示矩阵转置；

通过如下公式计算视频与单词之间的特征相似度向量：，

其中表示单词级别的特征；

通过如下公式计算句子与帧之间的特征相似度向量：，

其中表示帧级别的特征；

通过如下公式计算帧与单词之间的特征相似度向量：，

通过如下公式进行相似度聚合：

，

其中表示线性层，表示层，表示视频与单词的相似度分数；

表示句子与帧的相似度分数；表示帧级别的相似度聚合模块，用于聚合视频帧和文本句子之间的相似度，同时考虑帧之间的时序信息，表示单词级相似度聚合模块，用于聚合文本中各个单词与视频帧之间的相似度；表示帧与单词之间的相似度分数。

10.根据权利要求9所述的方法，其特征在于，步骤7包括：采用如下公式计算得到一个关于粗粒度与细粒度交互之后的相似度分数：，