买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种视频描述数据处理方法、装置以及存储介质

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种视频描述数据处理方法、装置以及存储介质

￥21600

专利号： 2021116378496

申请人：桂林远望智能通信科技有限公司

专利类型：发明专利

专利状态：已下证

更新日期：2025-05-17

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种视频描述数据处理方法，其特征在于，包括如下步骤：S1：导入视频数据，并构建视频描述模型，所述视频描述模型包括编码器和多个顺序排列的LSTM长短期记忆网络；

S2：通过所述编码器对所述视频数据进行编码，得到视觉特征矩阵，所述视觉特征矩阵包括分别与多个所述LSTM长短期记忆网络一一对应的视觉特征向量；

S3：导入与所述视觉特征向量对应的真实词向量，并将所述LSTM长短期记忆网络、所述视觉特征向量以及所述真实词向量为一组，并依次对每组LSTM长短期记忆网络进行判断分析，得到视频描述信息；

S4：对所述视频描述信息进行损失分析，得到目标视频描述模型；

S5：导入待测视频数据，通过所述目标视频描述模型对所述待测视频数据进行视频描述，得到视频描述结果。

2.根据权利要求1所述的视频描述数据处理方法，其特征在于，所述编码器包括2D‑CNN卷积神经网络和3D‑CNN卷积神经网络，所述视频数据包括多个帧图像，所述步骤S2中，通过所述编码器对所述视频数据进行编码，得到视觉特征矩阵的过程包括：通过所述2D‑CNN卷积神经网络分别对各个所述帧图像进行二维特征提取，得到与所述帧图像对应的二维特征；

通过所述3D‑CNN卷积神经网络对多个所述帧图像进行三维特征提取，得到三维特征；

对多个所述二维特征和所述三维特征进行拼接，得到视觉特征矩阵。

3.根据权利要求1所述的视频描述数据处理方法，其特征在于，所述步骤S3中，依次对每组LSTM长短期记忆网络进行判断分析，得到视频描述信息的过程包括：S31：将所述真实词向量作为输入词向量，对所有LSTM长短期记忆网络的数量进行统计，得到LSTM长短期记忆网络总数；

S32：每组LSTM长短期记忆网络中，通过所述LSTM长短期记忆网络对所述输入词向量进行解码，得到待处理词向量，并将所述LSTM长短期记忆网络的排列位数作为训练执行次数；

S33：对所述训练执行次数和所述LSTM长短期记忆网络总数进行采样率的计算，得到采样率；

S34：判断所述采样率是否大于预设判断值，若是，则将所述真实词向量和下一个视觉特征向量作为所述输入词向量，并返回步骤S32；若否，则将所述待处理词向量和下一个视觉特征向量作为所述输入词向量，并返回步骤S32，直至处理完所有的LSTM长短期记忆网络，从而得到多个待处理词向量，并根据所有的待处理词向量得到视频描述信息。

4.根据权利要求3所述的视频描述数据处理方法，其特征在于，所述步骤S33的过程包括：

通过第一式对所述训练执行次数和所述LSTM长短期记忆网络总数进行采样率的计算，得到采样率，所述第一式为：

其中，P为采样率，epoch为训练执行次数，max_epoch为LSTM长短期记忆网络总数。

5.根据权利要求1所述的视频描述数据处理方法，其特征在于，所述步骤S4的过程包括：

利用Spacy Tagging Tool工具对所述视频描述信息进行序列标注，得到多个词性标签；

导入与所述词性标签对应的真实标签，并利用交叉熵损失算法计算所有的词性标签以及所有的真实标签的损失值，得到标签损失值；

根据所述标签损失值对多个所述LSTM长短期记忆网络进行更新，并返回步骤S2，直至达到预设迭代次数，将更新后的视频描述模型作为目标视频描述模型。

6.一种视频描述数据处理装置，其特征在于，包括：模型构建模块，用于导入视频数据，并构建视频描述模型，所述视频描述模型包括编码器和多个顺序排列的LSTM长短期记忆网络；

编码器处理模块，通过所述编码器对所述视频数据进行编码，得到视觉特征矩阵，所述视觉特征矩阵包括分别与多个所述LSTM长短期记忆网络一一对应的视觉特征向量；

判断分析模块，用于导入与所述视觉特征向量对应的真实词向量，并将所述LSTM长短期记忆网络、所述视觉特征向量以及所述真实词向量为一组，并依次对每组LSTM长短期记忆网络进行判断分析，得到视频描述信息；

损失分析模块，用于对所述视频描述信息进行损失分析，得到目标视频描述模型；

视频描述结果获得模块，用于导入待测视频数据，通过所述目标视频描述模型对所述待测视频数据进行视频描述，得到视频描述结果。