买专利、卖专利、专利购买、专利交易、专利出售、高企申报-视频描述生成方法、装置、设备及计算机可读存储介质

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

视频描述生成方法、装置、设备及计算机可读存储介质

面议

专利号： 2021104700370

申请人：平安科技(深圳)有限公司

专利类型：发明专利

专利状态：已下证

更新日期：2026-06-16

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种视频描述生成方法，其特征在于，所述方法包括以下步骤：获取待描述视频，并提取所述待描述视频的视觉特征、听觉特征和词特征；

通过视频描述生成系统的多模态注意力机制主体模型分别对所述视觉特征和所述听觉特征进行编码，得到视觉编码特征和听觉编码特征；

通过所述视频描述生成系统的辅助模型，对所述视觉编码特征和所述听觉编码特征进行处理，以生成目标辅助特征；

通过所述多模态注意力机制主体模型对所述视觉编码特征、所述听觉编码特征、所述目标辅助特征和所述词特征进行解码，得到各个关键词的后验概率，并根据各个关键词的所述后验概率从各个关键词中选取解码词；

根据所述解码词生成所述待描述视频的视频描述。

2.根据权利要求1所述的视频描述生成方法，其特征在于，所述多模态注意力机制主体模型包括视觉特征编码器和听觉特征编码器；

所述通过视频描述生成系统的多模态注意力机制主体模型分别对所述视觉特征和所述听觉特征进行编码，得到视觉编码特征和听觉编码特征，包括：通过所述视觉特征编码器对所述视觉特征进行多头注意力计算得到视觉多头注意力特征，以及通过所述听觉特征编码器对所述听觉特征进行多头注意力计算得到听觉多头注意力特征；

通过所述视觉特征编码器对所述视觉多头注意力特征和所述听觉多头注意力特征进行多模态注意力计算，得到融合了听觉注意力的视觉特征，以及通过所述听觉特征编码器对所述听觉多头注意力特征和所述视觉多头注意力特征进行多模态注意力计算，得到融合了视觉注意力的听觉特征；

通过所述视觉特征编码器依次对所述融合了听觉注意力的视觉特征进行第一次层正则化、前馈计算和第二次层正则化，得到所述视觉特征编码器输出的视觉编码特征，以及通过所述听觉特征编码器依次对所述融合了视觉注意力的听觉特征进行第一次层正则化、前馈计算和第二次层正则化，得到所述听觉特征编码器输出的听觉编码特征。

3.根据权利要求1所述的视频描述生成方法，其特征在于，所述辅助模型包括场景分类辅助模型和关键词评估辅助模型；

所述通过所述视频描述生成系统的辅助模型，对所述视觉编码特征和所述听觉编码特征进行处理，以生成目标辅助特征，包括：将所述视觉编码特征输入至所述场景分类辅助模型进行处理，得到所述场景分类辅助模型输出的第一辅助特征，以及将所述听觉编码特征输入至所述关键词评估辅助模型进行处理，得到所述关键词评估辅助模输出的第二辅助特征；

根据所述第一辅助特征和所述第二辅助特征生成目标辅助特征。

4.根据权利要求3所述的视频描述生成方法，其特征在于，所述将所述视觉编码特征输入至所述场景分类辅助模型进行处理，得到所述场景分类辅助模型输出的第一辅助特征，包括：

将所述视觉编码特征输入至所述场景分类辅助模型，对所述视觉编码特征进行线性变换；

通过线性整流函数对线性变换后的视觉编码特征进行非线性映射，得到视觉编码特征映射；

对所述视觉编码特征映射进行线性变换；

对线性变换后的视觉编码特征映射进行softmax逻辑回归计算，得到所述场景分类辅助模型输出的第一辅助特征。

5.根据权利要求3所述的视频描述生成方法，其特征在于，所述将所述听觉编码特征输入至所述关键词评估辅助模型进行处理，得到所述关键词评估辅助模输出的第二辅助特征，包括：

将所述听觉编码特征输入至所述关键词评估辅助模型，对所述听觉编码特征进行线性变换；

通过线性整流函数对线性变换后的听觉编码特征进行非线性映射，得到听觉编码特征映射；

对所述听觉编码特征映射进行线性变换；

通过Sigmoid函数对线性变换后的听觉编码特征映射进行计算，得到词典中每个关键词的后验概率；

对所述每个关键词的后验概率进行最大池化，得到每个关键词的评分；