1.一种视频描述数据处理方法,其特征在于,包括如下步骤:S1:导入视频数据,并构建视频描述模型,所述视频描述模型包括编码器和多个顺序排列的LSTM长短期记忆网络;
S2:通过所述编码器对所述视频数据进行编码,得到视觉特征矩阵,所述视觉特征矩阵包括分别与多个所述LSTM长短期记忆网络一一对应的视觉特征向量;
S3:导入与所述视觉特征向量对应的真实词向量,并将所述LSTM长短期记忆网络、所述视觉特征向量以及所述真实词向量为一组,并依次对每组LSTM长短期记忆网络进行判断分析,得到视频描述信息;
S4:对所述视频描述信息进行损失分析,得到目标视频描述模型;
S5:导入待测视频数据,通过所述目标视频描述模型对所述待测视频数据进行视频描述,得到视频描述结果。
2.根据权利要求1所述的视频描述数据处理方法,其特征在于,所述编码器包括2D‑CNN卷积神经网络和3D‑CNN卷积神经网络,所述视频数据包括多个帧图像,所述步骤S2中,通过所述编码器对所述视频数据进行编码,得到视觉特征矩阵的过程包括:通过所述2D‑CNN卷积神经网络分别对各个所述帧图像进行二维特征提取,得到与所述帧图像对应的二维特征;
通过所述3D‑CNN卷积神经网络对多个所述帧图像进行三维特征提取,得到三维特征;
对多个所述二维特征和所述三维特征进行拼接,得到视觉特征矩阵。
3.根据权利要求1所述的视频描述数据处理方法,其特征在于,所述步骤S3中,依次对每组LSTM长短期记忆网络进行判断分析,得到视频描述信息的过程包括:S31:将所述真实词向量作为输入词向量,对所有LSTM长短期记忆网络的数量进行统计,得到LSTM长短期记忆网络总数;
S32:每组LSTM长短期记忆网络中,通过所述LSTM长短期记忆网络对所述输入词向量进行解码,得到待处理词向量,并将所述LSTM长短期记忆网络的排列位数作为训练执行次数;
S33:对所述训练执行次数和所述LSTM长短期记忆网络总数进行采样率的计算,得到采样率;
S34:判断所述采样率是否大于预设判断值,若是,则将所述真实词向量和下一个视觉特征向量作为所述输入词向量,并返回步骤S32;若否,则将所述待处理词向量和下一个视觉特征向量作为所述输入词向量,并返回步骤S32,直至处理完所有的LSTM长短期记忆网络,从而得到多个待处理词向量,并根据所有的待处理词向量得到视频描述信息。
4.根据权利要求3所述的视频描述数据处理方法,其特征在于,所述步骤S33的过程包括:
通过第一式对所述训练执行次数和所述LSTM长短期记忆网络总数进行采样率的计算,得到采样率,所述第一式为:
其中,P为采样率,epoch为训练执行次数,max_epoch为LSTM长短期记忆网络总数。
5.根据权利要求1所述的视频描述数据处理方法,其特征在于,所述步骤S4的过程包括:
利用Spacy Tagging Tool工具对所述视频描述信息进行序列标注,得到多个词性标签;
导入与所述词性标签对应的真实标签,并利用交叉熵损失算法计算所有的词性标签以及所有的真实标签的损失值,得到标签损失值;
根据所述标签损失值对多个所述LSTM长短期记忆网络进行更新,并返回步骤S2,直至达到预设迭代次数,将更新后的视频描述模型作为目标视频描述模型。
6.一种视频描述数据处理装置,其特征在于,包括:模型构建模块,用于导入视频数据,并构建视频描述模型,所述视频描述模型包括编码器和多个顺序排列的LSTM长短期记忆网络;
编码器处理模块,通过所述编码器对所述视频数据进行编码,得到视觉特征矩阵,所述视觉特征矩阵包括分别与多个所述LSTM长短期记忆网络一一对应的视觉特征向量;
判断分析模块,用于导入与所述视觉特征向量对应的真实词向量,并将所述LSTM长短期记忆网络、所述视觉特征向量以及所述真实词向量为一组,并依次对每组LSTM长短期记忆网络进行判断分析,得到视频描述信息;
损失分析模块,用于对所述视频描述信息进行损失分析,得到目标视频描述模型;
视频描述结果获得模块,用于导入待测视频数据,通过所述目标视频描述模型对所述待测视频数据进行视频描述,得到视频描述结果。
7.根据权利要求6所述的视频描述数据处理装置,其特征在于,所述编码器包括2D‑CNN卷积神经网络和3D‑CNN卷积神经网络,所述视频数据包括多个帧图像,所述编码器处理模块具体用于:
通过所述2D‑CNN卷积神经网络分别对各个所述帧图像进行二维特征提取,得到与所述帧图像对应的二维特征;
通过所述3D‑CNN卷积神经网络对多个所述帧图像进行三维特征提取,得到三维特征;
对多个所述二维特征和所述三维特征进行拼接,得到视觉特征矩阵。
8.根据权利要求6所述的视频描述数据处理装置,其特征在于,所述判断分析模块具体用于:
将所述真实词向量作为输入词向量,对所有LSTM长短期记忆网络的数量进行统计,得到LSTM长短期记忆网络总数;
每组LSTM长短期记忆网络中,通过所述LSTM长短期记忆网络对所述输入词向量进行解码,得到待处理词向量,并将所述LSTM长短期记忆网络的排列位数作为训练执行次数;
对所述训练执行次数和所述LSTM长短期记忆网络总数进行采样率的计算,得到采样率;
判断所述采样率是否大于预设判断值,若是,则将所述真实词向量和下一个视觉特征向量作为所述输入词向量,并通过下一个STM长短期记忆网络对所述输入词向量进行解码;
若否,则将所述待处理词向量和下一个视觉特征向量作为所述输入词向量,并通过下一个STM长短期记忆网络对所述输入词向量进行解码,直至处理完所有的LSTM长短期记忆网络,从而得到多个待处理词向量,并根据所有的待处理词向量得到视频描述信息。
9.一种视频描述数据处理系统,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,当所述处理器执行所述计算机程序时,实现如权利要求1至5任一项所述的视频描述数据处理方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,当所述计算机程序被处理器执行时,实现如权利要求1至5任一项所述的视频描述数据处理方法。