1.一种视频片段查询系统,其特征在于,包括:预处理模块,用于获取查询视频,其中,所述查询视频包括T个视频片段,从每个视频片段中截取N个视频帧,得到所述查询视频的T×N个视频帧,其中,T、N均为大于1的整数;
视频哈希网络,与所述预处理模块连接,所述视频哈希网络用于基于所述T×N个视频帧,提取所述查询视频的视频特征,并将所述视频特征映射到公共空间,生成所述查询视频的第二特征向量组和所述查询视频的哈希码;
语句哈希网络,用于获取查询语句,提取所述查询语句的语义特征,并将所述语义特征映射到所述公共空间,生成所述查询语句的第一特征向量和所述查询语句的哈希码;
相似度计算模块,与所述视频哈希网络和所述语句哈希网络连接,所述相似度计算模块用于计算每个视频片段与所述查询语句之间的实数相似度分数和哈希相似度分数;
位置预测网络,与所述相似度计算模块连接,所述位置预测网络用于基于所述T个视频片段与所述查询语句之间的相似度分数,预测所述查询视频中与所述查询语句相匹配的视频片段的开始时刻和结束时刻。
2.如权利要求1所述的视频片段查询系统,其特征在于,所述视频哈希网络包括:视频编码器,与所述预处理模块连接,所述视频编码器用于提取每个视频帧的视频特征,并基于每个视频片段的N个视频帧的视频特征,生成所述每个视频片段的第一特征向量;
第一双向GRU网络,与所述视频编码器连接,所述第一双向GRU网络用于基于所述T个视频片段的第一特征向量挖掘所述T个视频片段之间的时序信息,得到每个视频片段的时序特征向量;
第一FC层,与所述第一双向GRU网络连接,所述第一FC层用于将每个视频片段的时序特征向量映射到所述公共子空间,生成所述每个视频片段的第二特征向量;并利用所述T个视频片段的第二特征向量,组成所述查询视频的第二特征向量组;
第一符号函数,与所述第一FC层连接,所述第一符号函数用于对每个视频片段的第二特征向量进行哈希化,生成所述每个视频片段的哈希码;并利用所述T个视频片段的哈希码,组成所述查询视频的哈希码。
3.如权利要求2所述的视频片段查询系统,其特征在于,所述语句哈希网络包括:语句编码器,用于获取所述查询语句,提取所述查询语句的语句特征,生成所述查询语句的第一特征向量;
第二双向GRU网络,与所述语句编码器连接,所述第二双向GRU网络用于提取所述查询语句中的字符顺序所包含的时序信息,在所述第二双向GRU的最后一个时间步生成所述查询语句的时序特征向量;
第二FC层,与所述第二双向GRU网络连接,所述第二FC层用于将所述查询语句的时序特征向量映射到所述公共子空间,生成所述查询语句的第二特征向量,其中,所述查询语句的第二特征向量的维数等于每个视频片段的第二特征向量的维数;
第二符号函数,与所述第二FC层连接,所述第二符号函数用于对所述查询语句的第二特征向量进行哈希化,生成所述查询语句的哈希码,其中,所述查询语句的哈希码的长度和每个视频片段的哈希码的长度均为l,l为大于或等于1的整数。
4.如权利要求3所述的视频片段查询系统,其特征在于,所述相似度计算模块与所述第一FC层、所述第二FC层连接、所述第一符号函数和所述第二符号函数连接,所述相似度计算模块是用于:
根据公式(1)计算所述查询语句的第二特征向量与每个视频片段的第二特征向量之间r
的实数相似度分数st:
v s
其中,sigmoid表示S形函数,μ表示缩放因子,rt表示每个视频片段的第二特征向量,r表示所述查询语句的第二特征向量;
根据公式(2)计算所述查询语句的哈希码与每个视频片段的哈希码之间的哈希相似度h
分数st:
v
其中,H(·)表示汉明距离函数,l表示每个哈希码的长度,h t表示每个视频片段的哈希s
码,h表示所述查询语句的哈希码。
5.如权利要求4所述的视频片段查询系统,其特征在于,所述位置预测网络为多层感知器MLP,所述MLP包括:
第三FC层和第四FC层,其中,所述第三FC层与所述相似度计算模块连接,所述第四FC层与所述第三FC层连接,所述第三FC层设置有双曲正切Tanh激活函数,所述第三FC层用于接h
收T个哈希相似度分数折叠成的哈希相似度向量s ,所述第三FC层和所述第四FC层共同用h
于完成s到所述查询视频中与所述查询语句相匹配的视频片段的开始时刻和结束时刻的非线性变换,并输出所述开始时刻和结束时刻。
6.如权利要求2所述的视频片段查询系统,其特征在于,所述视频编码器为膨胀3D卷积网络I3D深度神经网络。
7.如权利要求3所述的视频片段查询系统,其特征在于,所述语句编码器为全向量词表示Golve网络。
8.一种视频片段查询方法,其特征在于,包括:S10:获取多个训练对,其中每个训练对包括训练视频和训练语句,其中所述训练视频包括T个训练视频片段,T为大于1的整数;对所述每个训练对进行标注,标注的内容包括:每个训练视频片段与所述训练语句之间的实数相似度分数,以及所述训练视频中与所述训练语句相匹配的视频片段的开始时刻和结束时刻;
S20:构建如权利要求1‑7任意一项所述的视频片段查询系统;
S30:依次将每个训练对输入到所述视频片段查询系统中,预测所述每个训练对中每个查询视频片段与训练语句之间的实数相似度分数,以及所述每个训练对中与训练语句匹配的视频片段的开始时刻和结束时刻;基于相似度损失和位置损失构造损失函数,基于预测结果和所述损失函数对所述视频片段查询系统的参数进行迭代优化,直到达到预定的训练终止条件;
S40:获取待查询视频和待查询语句,将所述待查询视频和待查询语句输入到训练好的视频片段查询系统中,预测所述待查询视频中与所述待查询语句相匹配的视频片段的开始时刻和结束时时刻。
9.如权利要求8所述的视频片段查询方法,其特征在于,在步骤S30中,所述损失函数包括相似度损失函数和位置损失函数,其中,所述相似度损失函数loss1根据公式(3)计算:r
其中, 表示二类交叉熵损失函数,s 表示每个训练对中的Tr* r
个实数相似度分数折叠成的实数相似度向量的预测值,s 表示s对应的真实值;
所述位置损失函数loss2根据公式(4)计算:其中, 表示平滑的L1范数损失函数,y表示每个训练对中匹配的视频片*
段的开始时刻和结束时刻构成的二维向量的预测值,y表示y对应的真实值。
10.如权利要求9所述的视频片段查询方法,其特征在于,所述损失函数loss根据公式(5)计算:
其中,λ表示超参数。