利索能及
我要发布
收藏
专利号: 2020101382916
申请人: 南京信息工程大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-30
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于从局部到全局的视频时序片段提取方法,其特征在于:包括如下具体步骤:

1)特征提取:按如下方法从给定的视频帧中提取特征向量F,该方法包括:首先用TVL1法提取给定视频帧的光流,再采用双流网络按视频帧的时序分别对每一对图片和光流进行建模,聚合形成特征向量F’,然后将所有聚合形成的特征向量F’沿着时序维度堆叠形成特征向量F;

2)编码:对特征向量F,依次使用时序卷积网络、双向循环神经网络以及注意力机制进行编码,其具体步骤如下:

2.1)使用时序卷积网络对特征向量F进行局部信息建模:

首先将步骤1)提取的特征向量F作为输入,使用时序卷积来捕获局部信息,即将特征向量F输入到2层步长为1,卷积核大小为3的一维卷积,该过程可按如下公式表示:Femb1=(Wemb1*F+bemb1)

Femb2=(Wemb2*Femb1+bemb2)

式中,Femb1表示特征向量F经过第一层时序卷积生成的特征向量;Femb2表示经过第二层时序卷积生成的特征向量;Wemb1表示第一层卷积核的权重参数;bemb1表示第一层卷积核的偏置参数;Wemb2表示第二层卷积核的权重参数;bemb2表示第二层卷积核的偏置参数;*表示卷积运算;

然后通过加和操作来融合Femb1和Femb2,得到融合后的特征向量Fcomp:Fcomp=Femb1+Femb2;

2.2)使用双向循环神经网络对融合后的特征向量Fcomp进行全局信息建模,所述双向循环神经网络为biLSTM神经网络,其中,biLSTM神经网络由两个LSTM神经网络组成,单个LSTM神经网络的全局特征的编码过程如下:It=σ(WxiXt+WhiHt-1+bi)

Ft=σ(WxfXt+WhfHt-1+bf)

Ot=σ(WxoXt+WhoHt-1+bo)

gt=tanh(WxgXt+WhgHt-1+bg)

Ct=Ft⊙Ct-1+It⊙gt

Ht=Ot⊙tanh(Ct)

式中,t表示时间点,It,Ft,Ot分别表示t时间点的单个LSTM的输入门、遗忘门和输出门;

Ct表示t时间点的新的细胞信息;Ct-1表示t-1时间点的旧的细胞信息;Xt表示在t时间点的输入特征向量;Ht表示t时间点的隐状态,⊙表示点乘运算;Wxi和bi分别表示输入门的权重矩阵与偏置矩阵;Wxf和bf分别表示遗忘门的权重矩阵与偏置矩阵;Wxo和bo分别表示输出门的权重矩阵与偏置矩阵;Wxg和bg分别表示候选细胞信息的权重矩阵与偏置矩阵;

2.3)使用注意力机制来引导模型的学习过程,即采用多层感知机以及非线性映射,使在增加时序上运动行为的权重的同时抑制嘈杂背景的权重,该过程可按如下公式表示:st=tanh(Wqs(H'tWhq+bq)+bs)

式中,st表示多层感知机的输出,st,i表示多层感知机的输出st的第i维,i的取值范围为[1,D],D表示多层感知机的输出st的维度数;Wqs和bq分别表示模型中第一层线性层的权重矩阵与偏置矩阵;Whq和bs分别表示模型中第二层线性层的权重矩阵与偏置矩阵;αt,i表示st中第i维度上的权重;

再通过给每个时间点分配权重来形成编码后的特征向量s′t,该过程可按如下公式表示:s′t=∑iαt,ist,i;

3)提名特征预测:基于编码后的特征向量s′t,采用卷积网络的方法生成表示s′t每个时间点包含行为的概率、行为开始的概率和行为结束的概率,并用设定阈值的方法将概率值大的时间点聚合形成提名片段,并基于形成的提名片段生成提名特征;

4)评估:对步骤3)中的提名特征用全连接网络进行置信度得分预测,再采用非极大值抑制方法筛除冗余片段,得到时序片段组。

2.根据权利要求1所述的基于从局部到全局的视频时序片段提取方法,其特征在于:步骤2.2)中所述biLSTM循环神经网络通过前向与后向的方法来使网络学习到整个时间点上从过去到未来的全局的特征向量,该过程可按如下公式表示:其中, 表示前向LSTM生成的特征向量; 表示后向LSTM生成的特征向量;H′t表示前向与后向LSTM生成的特征向量的聚合。

3.根据权利要去2所述的基于从局部到全局的视频时序片段提取方法,其特征在于:步骤2.3)中所述注意力机制采用Attn注意力机制。