利索能及
我要发布
收藏
专利号: 2021104700370
申请人: 平安科技(深圳)有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种视频描述生成方法,其特征在于,所述方法包括以下步骤:获取待描述视频,并提取所述待描述视频的视觉特征、听觉特征和词特征;

通过视频描述生成系统的多模态注意力机制主体模型分别对所述视觉特征和所述听觉特征进行编码,得到视觉编码特征和听觉编码特征;

通过所述视频描述生成系统的辅助模型,对所述视觉编码特征和所述听觉编码特征进行处理,以生成目标辅助特征;

通过所述多模态注意力机制主体模型对所述视觉编码特征、所述听觉编码特征、所述目标辅助特征和所述词特征进行解码,得到各个关键词的后验概率,并根据各个关键词的所述后验概率从各个关键词中选取解码词;

根据所述解码词生成所述待描述视频的视频描述。

2.根据权利要求1所述的视频描述生成方法,其特征在于,所述多模态注意力机制主体模型包括视觉特征编码器和听觉特征编码器;

所述通过视频描述生成系统的多模态注意力机制主体模型分别对所述视觉特征和所述听觉特征进行编码,得到视觉编码特征和听觉编码特征,包括:通过所述视觉特征编码器对所述视觉特征进行多头注意力计算得到视觉多头注意力特征,以及通过所述听觉特征编码器对所述听觉特征进行多头注意力计算得到听觉多头注意力特征;

通过所述视觉特征编码器对所述视觉多头注意力特征和所述听觉多头注意力特征进行多模态注意力计算,得到融合了听觉注意力的视觉特征,以及通过所述听觉特征编码器对所述听觉多头注意力特征和所述视觉多头注意力特征进行多模态注意力计算,得到融合了视觉注意力的听觉特征;

通过所述视觉特征编码器依次对所述融合了听觉注意力的视觉特征进行第一次层正则化、前馈计算和第二次层正则化,得到所述视觉特征编码器输出的视觉编码特征,以及通过所述听觉特征编码器依次对所述融合了视觉注意力的听觉特征进行第一次层正则化、前馈计算和第二次层正则化,得到所述听觉特征编码器输出的听觉编码特征。

3.根据权利要求1所述的视频描述生成方法,其特征在于,所述辅助模型包括场景分类辅助模型和关键词评估辅助模型;

所述通过所述视频描述生成系统的辅助模型,对所述视觉编码特征和所述听觉编码特征进行处理,以生成目标辅助特征,包括:将所述视觉编码特征输入至所述场景分类辅助模型进行处理,得到所述场景分类辅助模型输出的第一辅助特征,以及将所述听觉编码特征输入至所述关键词评估辅助模型进行处理,得到所述关键词评估辅助模输出的第二辅助特征;

根据所述第一辅助特征和所述第二辅助特征生成目标辅助特征。

4.根据权利要求3所述的视频描述生成方法,其特征在于,所述将所述视觉编码特征输入至所述场景分类辅助模型进行处理,得到所述场景分类辅助模型输出的第一辅助特征,包括:

将所述视觉编码特征输入至所述场景分类辅助模型,对所述视觉编码特征进行线性变换;

通过线性整流函数对线性变换后的视觉编码特征进行非线性映射,得到视觉编码特征映射;

对所述视觉编码特征映射进行线性变换;

对线性变换后的视觉编码特征映射进行softmax逻辑回归计算,得到所述场景分类辅助模型输出的第一辅助特征。

5.根据权利要求3所述的视频描述生成方法,其特征在于,所述将所述听觉编码特征输入至所述关键词评估辅助模型进行处理,得到所述关键词评估辅助模输出的第二辅助特征,包括:

将所述听觉编码特征输入至所述关键词评估辅助模型,对所述听觉编码特征进行线性变换;

通过线性整流函数对线性变换后的听觉编码特征进行非线性映射,得到听觉编码特征映射;

对所述听觉编码特征映射进行线性变换;

通过Sigmoid函数对线性变换后的听觉编码特征映射进行计算,得到词典中每个关键词的后验概率;

对所述每个关键词的后验概率进行最大池化,得到每个关键词的评分;

对每个关键词的评分进行排序,按照评分从大到小的顺序选取预设数量的关键词,以在词典中查找选取的关键词的索引;

将查找到的索引进行组合,得到所述关键词评估辅助模输出的第二辅助特征。

6.根据权利要求3所述的视频描述生成方法,其特征在于,所述根据所述第一辅助特征和所述第二辅助特征生成目标辅助特征,包括:对所述第二辅助特征依次进行关键词嵌入处理和线性变换,得到降低了特征维度的第二辅助特征;

将降低了特征维度的第二辅助特征与所述第一辅助特征进行拼接,得到目标辅助特征。

7.根据权利要求1所述的视频描述生成方法,其特征在于,所述多模态注意力机制主体模型包括文本解码器;

所述通过所述多模态注意力机制主体模型对所述视觉编码特征、所述听觉编码特征、所述目标辅助特征和所述词特征进行解码,得到各个关键词的后验概率,包括:通过所述文本解码器,对所述词特征依次进行多头注意力计算和层正则化,得到词层正则化特征;

对所述词层正则化特征与所述视觉编码特征进行多模态注意力计算,得到融合了视觉注意力的词特征,以及将所述词层正则化特征与所述听觉编码特征进行多模态注意力计算,得到融合了听觉注意力的词特征;

对所述融合了视觉注意力的词特征和所述融合了听觉注意力的词特征进行桥接,得到桥接词特征;

对所述桥接词特征进行层正则化,对层正则化后的桥接词特征和所述目标辅助特征进行多头注意力计算,得到融合了目标辅助特征的词特征;

对所述融合了目标辅助特征的词特征依次进行第一次层正则化、前馈计算和第二次层正则化,得到所述文本解码器的输出;

对所述文本解码器的输出依次进行线性变换和Softmax逻辑回归计算,得到各个关键词的后验概率。

8.一种视频描述生成装置,其特征在于,所述视频描述生成装置包括:提取模块,用于获取待描述视频,并提取所述待描述视频的视觉特征、听觉特征和词特征;

编码模块,用于通过视频描述生成系统的多模态注意力机制主体模型分别对所述视觉特征和所述听觉特征进行编码,得到视觉编码特征和听觉编码特征;

目标辅助特征生成模块,用于通过所述视频描述生成系统的辅助模型,对所述视觉编码特征和所述听觉编码特征进行处理,以生成目标辅助特征;

解码模块,用于通过所述多模态注意力机制主体模型对所述视觉编码特征、所述听觉编码特征、所述目标辅助特征和所述词特征进行解码,得到各个关键词的后验概率,并根据各个关键词的所述后验概率从各个关键词中选取解码词;

视频描述生成模块,用于根据所述解码词生成所述待描述视频的视频描述。

9.一种计算机设备,其特征在于,所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如权利要求1至7中任一项所述的视频描述生成方法的步骤。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现如权利要求1至7中任一项所述的视频描述生成方法的步骤。