1.一种视频摘要生成方法,其特征在于,所述方法包括:对原始视频进行断点检测,根据检测得到的多个断点将所述原始视频切分为多个视频片段,并识别每个视频片段的视频文本;
提取所述视频片段的第一视觉特征向量,计算所述第一视觉特征向量的第一向量维度,根据最大的第一向量维度对所述第一视觉特征向量进行扩充得到第二视觉特征向量;
提取所述视频文本的第一文本语义向量,计算所述第一文本语义向量的第二向量维度,根据最大的第二向量维度对所述第一文本语义向量进行扩充得到第二文本语义向量;
采用层级注意力机制将所述第二视觉特征向量及对应的所述第二文本语义向量进行融合得到融合特征向量;
基于Bi‑LSTM构成视频片段选择器,使用所述视频片段选择器根据所述融合特征向量计算每个视频片段的重要度;
以GAN为网络框架,根据所述重要度对所述视频片段选择器进行优化训练,得到最优的视频片段选择器;
使用所述最优的视频片段选择器生成视频摘要。
2.如权利要求1所述的视频摘要生成方法,其特征在于,所述使用所述最优的视频片段选择器生成视频摘要包括:
使用所述最优的视频片段选择器计算每个视频片段的目标重要度;
对所述目标重要度进行离散化处理得到离散值;
获取所述离散值中的目标离散值及获取所述目标离散值对应的目标视频片段;
根据所述目标视频片段生成视频摘要。
3.如权利要求1所述的视频摘要生成方法,其特征在于,所述提取所述视频片段的第一视觉特征向量包括:
分割所述视频片段为多个视频帧;
利用DeepCNN提取所述视频帧的特征向量;
计算所述视频片段的多个视频帧的特征向量的均值,得到所述第一视觉特征向量。
4.如权利要求1所述的视频摘要生成方法,其特征在于,所述采用层级注意力机制将所述第二视觉特征向量及对应的所述第二文本语义向量进行融合得到融合特征向量包括:将所述第二视觉特征向量投影到目标空间得到第一投影向量,及将所述第二文本语义向量投影到所述目标空间得到第二投影向量;
计算所述第一投影向量在所述目标空间中的第一权重,及计算所述第二投影向量在所述目标空间中的第二权重;
根据所述第二视觉特征向量及所述第一权重、所述第二文本语义向量及所述第二权重得到融合特征向量。
5.如权利要求1至4中任意一项所述的视频摘要生成方法,其特征在于,所述以GAN为网络框架,根据所述重要度对所述视频片段选择器进行优化训练包括:创建多个损失函数;
根据所述多个损失函数生成目标损失函数;
通过生成式对抗网络基于所述第二视觉特征向量和所述第二文本语义向量生成重建视频向量;
应用随机梯度变分贝叶斯估计方法,基于所述重建视频向量最小化所述目标损失函数,得到多个参数,所述多个参数包括最优的视频片段选择器的参数。
6.如权利要求5所述的视频摘要生成方法,其特征在于,所述多个损失函数包括:稀疏损失函数,GAN结构生成器损失函数及GAN结构鉴别器损失函数,所述目标损失函数, 表示所述稀疏损失函数,
表示所述GAN结构生成器损失函数中的重建损失函数, 表示所述GAN结构生成器损失函数中的先验损失函数, 表示所述GAN结构鉴别器损失函数, 为超参数。
7.如权利要求6所述的视频摘要生成方法,其特征在于,所述基于所述重建视频向量最小化所述目标损失函数包括:
对所述GAN结构鉴别器损失函数的加权损失运用随机梯度变分贝叶斯估计得到最优鉴别器参数;
通过最小化所述稀疏损失函数,所述GAN结构生成器损失函数中的重建损失函数和所述GAN结构生成器损失函数中的先验损失函数,得到最优生成器参数与视频片段选择器参数。
8.一种视频摘要生成装置,其特征在于,所述装置包括:视频切分模块,用于对原始视频进行断点检测,根据检测得到的多个断点将所述原始视频切分为多个视频片段,并识别每个视频片段的视频文本;
第一提取模块,用于提取所述视频片段的第一视觉特征向量,计算所述第一视觉特征向量的第一向量维度,根据最大的第一向量维度对所述第一视觉特征向量进行扩充得到第二视觉特征向量;
第二提取模块,用于提取所述视频文本的第一文本语义向量,计算所述第一文本语义向量的第二向量维度,根据最大的第二向量维度对所述第一文本语义向量进行扩充得到第二文本语义向量;
特征融合模块,用于采用层级注意力机制将所述第二视觉特征向量及对应的所述第二文本语义向量进行融合得到融合特征向量;
重要度计算模块,用于基于Bi‑LSTM构成视频片段选择器,使用所述视频片段选择器根据所述融合特征向量计算每个视频片段的重要度;
优化训练模块,用于以GAN为网络框架,根据所述重要度对所述视频片段选择器进行优化训练,得到最优的视频片段选择器;
摘要生成模块,用于使用所述最优的视频片段选择器生成视频摘要。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1至7中任意一项所述的视频摘要生成方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的视频摘要生成方法。