1.一种基于锚自由和长时注意力感知的视频交互动作检测方法,其特征在于,包括以下步骤:步骤1:对原始视频进行特征编码提取;
步骤1‑1:使用在Kinetics数据集训练好的I3D模型提取3D双流特征,即RGB流和光流特征;提取视频的RGB特征序列为 ,其中T表示特征时间维度,C表示特征通道维度,H表示特征宽,W表示特征高;
步骤1‑2:通过卷积操作将双流特征的H和W维度压缩形成二维特征 ,将其作为金字塔特征的基本单元;
步骤2:搭建金字塔模块,将双流视频特征编码分别输如到金字塔结构中,手动为不同粒度特征进行位置编码,获得多层级的特征表示;
步骤2‑1:构建金字塔模块,将 特征 作为金字塔底部特征,利用多个时间维度卷积核合并时间维度,并浓缩通道维度信息,得到 多级金字塔特征,l表示最底层,n代表除去金字塔底层的层数;
步骤2‑2:通过设计位置嵌入函数手动为时间序列中的每个节点嵌入带有前后顺序的位置信息,为金字塔特征每一层级嵌入位置信息;
步骤3:构建长时动态过去未来注意力模块,将带有位置信息的双流多级金字塔特征作为输入,动态强化重要信息,弱化无关信息;
步骤4:构建粗粒度预测与优化模块,融合双流输出并消除冗余得到最终结果。
2.根据权利要求1所述的基于锚自由和长时注意力感知的视频交互动作检测方法,其特征在于,所述步骤3具体步骤如下:步骤3‑1:将带有位置信息的任意一层RGB或光流金字塔特征 每个时间片段的内容映射成一个 维度向量,使 具有形状 ;利用注意力模块捕获 中任意两个时间位置之间的相关性 ,计算特征的任意两个位置之间的关系,动态注意力模块定义如下:其中 为三个映射函数,i和j代表任意两位置, 与 为金字塔同级特征中任意两个时间点的特征,其中 对 进行映射并保持其原有维度 , 对 进行映射并保留其原有维度 , 表示对特征进行转置,使特征序列中任意两点之间建立关系, 为控制两位置点之间是否有关的指示函数,其被初始化为两部分:;
步骤3‑2:将更新后的 分为两部分 和 ,并分别与初始特征 加权 ,然后按通道维度拼接;再将前后文关系映射到通道维度得到特征 ,经过池化和卷积得到并与初始特征形状相同的 ,与输入初始特征 相加形成最后的输出特征 。
3.根据权利要求2所述的基于锚自由和长时注意力感知的视频交互动作检测方法,其特征在于,所述构建粗粒度预测与优化模块,融合双流输出并消除冗余得到最终结果具体步骤如下:步骤4‑1:将步骤3处理后的双流特征分别输入粗粒度预测模块,对每一层级特征 的每一时间点位进行动作定位和分类,得到分类结果 以及回归结果,其中 为数据集动作类别数,对于每一时间点有粗粒度预测结果,将初步预测结果输送到细粒度优化模块输出得到分类结果以及回归结果 ,cls表示分类结果,reg表示回归结果;通过如下方式进行更新得到每一时间点有优化偏移量,并得到更新后结果 ;
;
步骤4‑2:将双流结果相加融合,利用Soft‑NMS方法消除冗余片段得到最终结果。
4.根据权利要求1所述的基于锚自由和长时注意力感知的视频交互动作检测方法,其特征在于,所述为金字塔特征每一层级嵌入位置信息具体步骤如下:金字塔任意一层特征为 ,其对应嵌入的位置信息为 ,其维度与对应层级特征维度相同,表示为 ; 具体表示如下:其中 表示时间维度上的位置,e表示编码的维度,e的取值范围为[0 c),c表示通道~维度大小;每个时间位置都对应唯一的位置编码,将位置编码嵌入到金字塔结构中的每一层特征 中;具体地,同一层级的位置编码与对应特征维度相同,则将位置编码与特征对应相加;更新得到新的 即 ,两位置间差异 表示为:i与i+n表示任意两时间点位置,更新后的 任意两位置间差异不仅包含运动差异还包含了时间位置距离 ;
由于位置函数均由正弦、余弦函数组成,其具体数值可通过简单的三角函数公式得出:。
5.根据权利要求3所述的基于锚自由和长时注意力感知的视频交互动作检测方法,其特征在于,得到粗粒度预测结果 和细粒度优化结果 后通过损失函数FocalLoss和L1Loss分别对粗粒度预测和细粒度优化的分类和定位目标函数优化,具体损失函数如下:其中 为超参数, 与 分别为粗预测和细粒度优化的损失函数均采用FocalLoss, 为粗预测起止片段与标签起止片段的IoULoss, 为预测偏置和标签偏置的L1Loss。