1.一种基于全局知识挖掘和前景注意力的交互视频动作检测方法,其特征在于,该方法具体包含以下步骤:
1)对视频进行预处理,将未修剪的视频抽取成帧,表示为 在训练集中包含T帧;
2)通过I3D网络将生成的视频帧获得时空特征序列,将获得的时空特征经过3D卷积变成1D特征序列F′,使特征包含整个视频的时间和空间信息,把特征序列F′作为整个视频的特征表示;
3)将特征序列F′输入到上下文信息提取模块提取不同层次的特征,采用线性插值将高层特征的信息递归加到低层特征中,获得具有充足的语义信息和局部细节的特征Tn∈{2,4,8,…,64}代表不同的时间尺度,C代表的是特征的通道,同时该模块还会产生用于边界池化的帧级特征;
4)通过时间信息提取模块将视频帧作为输入,利用编码层从整个视频中获取时间信息,用于补偿不同层次的特征在下采样过程中丢失的时间信息;
5)将上文信息捕获模块获得的特征序列F和时间信息提取模块获得的特征序列Fl连接起来,获得具有丰富上下文信息的特征序列C
6)基于以上特征,得到粗时间边界 和粗分类c, 代表位置i到开始时间的距离,代表位置i到结束时间的距离,i∈{0,1,…,t‑1},t代表的是金字塔特征的时间长度;
7)获取第i个位置开始时间和结束时间:
其中 表示特征中相应第i个位置的粗开始时间, 表示特征中相应第i个位置的粗结束时间;
8)根据不同层次的特征结合损失函数利用前景信息增强模块得到精细化特征,利用精细化特征,得到精细化边界偏移和精细化分类,并将边界偏移加到粗边界上得到精细化边界,所述损失函数具体如下:其中 和 分别是粗分类和细分类的损失函数用来约束视频预测的分类结果,和 分别是粗边界回归和细化边界回归的损失函数用来约束视频中动作实例的边界结果,Lbce是二元交叉熵的损失函数,α和β是超参数;
所述利用前景信息增强模块得到精细化特征,具体过程如下:
1)将粗边界和粗分类的结果输入到边界池化层,
H×W×C
2)将整个视频帧输入到前景信息增强模块,该模块将每个视频帧xi∈R 进行图像分2
块处理,将H×W×C的图片用P×P大小的块将每一个视频帧分成D=HW/P个块;
将D个块向量拼接得到一个二维特征矩阵并对特征序列进行位置嵌入得到帧级特征,实现过程为:Fframe=Linear(FSA(xi)) i=1,…,T, (5)式中FSA是前景信息注意编码器,在自注意力的基础上增加了下采样操作,采用1D线性插值实现下采样;
3)将Fframe与上下文信息提取模块输出的帧级特征进行融合,得到特征F′frame作为边界池化的另一个输入,用于精细预测;
4)把粗预测过程中的特征 和F,以及精细预测过程中的帧级特征F′frame经过边界池化得到细粒度的特征 和
5) 和 分别经过两个不同的1D卷积进行精细化预测,其中一个卷积被用来预测边界回归的偏移量 和 分别表示开始时间和结束时间的偏移,另一个卷积用来预测精细化的分类cR,最后将得到的偏移量 加到粗边界获得精细化边界和 分别表示精细化的开始和结束的时间。
2.根据权利要求1所述的基于全局知识挖掘和前景注意力的交互视频动作检测方法,其特征在于,所述通过时间信息提取模块获取时间信息的具体步骤如下:利用空间编码器对同一时间索引中提取的块之间建立关系,然后将所有的空间编码器输出的特征输入到对不同时间索引的帧建立联系的时间编码器中捕获全局信息,获取具有时间信息的多个时间尺度的特征 式中Tn代表不同的时间尺度,C为特征的通道,具体公式如下:式中SpatialT代表的是空间编码器,TemporalT代表的是时间编码器,Linear代表的是全连接层,embeding是将时间加入空间特征并进行嵌入。
3.根据权利要求1所述的基于全局知识挖掘和前景注意力的交互视频动作检测方法,其特征在于,所述粗分类中使用focal损失函数作为约束,调整正负样本的权重和控制困难和容易分类的样本,由于正负样本本身比例不均匀,并且负样本易分,因此我们引入一个参数γ,平衡比列并且调节为0.75,防止过拟合,具体公式如下:C
其中N是粗略过程中正样本的数量, 是粗粒度过程预测的粗分类结果,ci是真实标签:所述精细化分类中使用focal损失函数作为约束条件,具体公式如下:R
其中N是当粗糙提议与真实样本的tloU大于0.5时精化过程中正样本的数量, 是预测的精化分类结果通过细化过程,ci是真实标签。
4.根据权利要求1所述的基于全局知识挖掘和前景注意力的交互视频动作检测方法,其特征在于,所述二元交叉熵的损失函数定义如下:其中 是带有超参数的二元交叉熵损失,由于原始的二元交叉熵损失函数收敛速度较慢,因此我们引入 来加快函数的收敛速度并且设置为0.3, 为细化的边界,ψi为训练过程中真实标签,εi是从精细化过程生成的位置标签。