1.视频文本的相似性度量方法,其特征是,包括:使用预训练的特征提取器提取视频的多模态特征,得到初始视频特征表示;
将初始特征输入到粗‑细粒度并列注意力网络中,得到中间表示特征;
将中间特征表示输入到特征融合网络得到最终的视频多模态特征表示;
利用预先训练的模型对输入文本进行文本特征提取,得到文本特征表示;
通过门嵌入生成对应视频不同模态特征的文本特征表示向量;
对视频多模态特征表示以及文本特征表示进行相似性度量;
粗细粒度并列注意力网络中粗粒度注意网络处理的过程为:通过区域池化策略将每个视频的不同模态特征进行划分;
将划分后的每个部分特征输入卷积层,通过区域注意力机制实现每个部分区域之间的联系;
区域注意力机制的公式表示为:
其中, 是第 部分和第 部分的特征之间的相似性;
通过对计算出的部分特征相似矩阵与嵌入的部分特征进行内积计算,得到部分特征增强矩阵;
其中, 为部分特征增强矩阵, 为部分特征相似矩阵, 为嵌入的部分特征;
通过部分增强特征的加权组合,得到聚合特征。
2.如权利要求1所述的视频文本的相似性度量方法,其特征是,视频的不同模态初始特征提取的过程为:使用不同的网络提取视频的多种模态特征,得到视频中不同模态的初始特征表示;
将视频中不同模态特征对齐,将特征提取时的时间信息融入到不同的特征中;
将不同模态的初始特征表示和时间特征进行嵌入;
利用粗细粒度并列注意力网络从局部区域特征和全局区域特征对嵌入后的特征进行处理。
3.如权利要求2所述的视频文本的相似性度量方法,其特征是,所述粗细粒度并列注意力网络中细粒度注意力网络处理过程为:将每个视频模态的初始特征转换为全局特征图;
计算图中特征点之间的联系得到完整的连接图;
根据图的注意机制,计算注意系数,获得节点特征;
对节点特征进行了批量归一化,获得细粒度注意网络生成的特征。
4.如权利要求1所述的视频文本的相似性度量方法,其特征是,所述相似性度量具体为:通过计算多层相似度来评估视频和文本的相似性,然后进行多层相似度的加权求和。
5.如权利要求1所述的视频文本的相似性度量方法,其特征是,特征融合网络将视频中不同模态特征进行融合,最终得到视频表示,减少视频中不同模态之间的语义差异。
6.如权利要求1所述的视频文本的相似性度量方法,其特征是,文本特征提取时使用预先训练好的BERT模型,然后连接最大池化操作和全连接层,最终输出文本特征表示。
7.视频文本的相似性度量系统,采用如权利要求1‑6任一项所述的视频文本的相似性度量方法,其特征是,包括:视频初始特征提取模块,被配置为:使用预训练的特征提取器提取视频的多模态特征,得到初始视频特征表示;
时间嵌入模块,被配置为:将每个特征提取器提取特征的时间与视频不同模态的特征进行嵌入,增强视频特征之间的对齐程度;
粗‑细粒度并列注意力模块,被配置为:将初始特征输入到粗‑细粒度并列注意力网络中,得到中间表示特征;
特征融合模块,被配置为:将中间特征表示输入到特征融合网络得到最终的视频多模态特征表示;
文本特征提取模块,被配置为:利用预先训练的模型对输入文本进行文本特征提取,得到文本特征表示;
通过门嵌入生成对应视频不同模态特征的文本特征表示向量;
多层相似性度量模块,被配置为:对视频多模态特征表示以及文本特征表示进行相似性度量。
8.一种计算装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征是,所述处理器执行所述程序时实现上述权利要求1‑6任一所述的方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征是,该程序被处理器执行时执行上述权利要求1‑6任一所述的方法的步骤。