买专利、卖专利、专利购买、专利交易、专利出售、高企申报-基于锚自由和长时注意力感知的视频交互动作检测方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

基于锚自由和长时注意力感知的视频交互动作检测方法

￥25200

专利号： 2022106639494

申请人：山东省人工智能研究院

专利类型：发明专利

专利状态：已下证

更新日期：2025-12-22

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于锚自由和长时注意力感知的视频交互动作检测方法，其特征在于，包括以下步骤：步骤1：对原始视频进行特征编码提取；

步骤1‑1：使用在Kinetics数据集训练好的I3D模型提取3D双流特征，即RGB流和光流特征；提取视频的RGB特征序列为，其中T表示特征时间维度，C表示特征通道维度，H表示特征宽，W表示特征高；

步骤1‑2：通过卷积操作将双流特征的H和W维度压缩形成二维特征，将其作为金字塔特征的基本单元；

步骤2：搭建金字塔模块，将双流视频特征编码分别输如到金字塔结构中，手动为不同粒度特征进行位置编码，获得多层级的特征表示；

步骤2‑1：构建金字塔模块，将特征作为金字塔底部特征，利用多个时间维度卷积核合并时间维度，并浓缩通道维度信息，得到多级金字塔特征，l表示最底层，n代表除去金字塔底层的层数；

步骤2‑2：通过设计位置嵌入函数手动为时间序列中的每个节点嵌入带有前后顺序的位置信息，为金字塔特征每一层级嵌入位置信息；

步骤3：构建长时动态过去未来注意力模块，将带有位置信息的双流多级金字塔特征作为输入，动态强化重要信息，弱化无关信息；

步骤4：构建粗粒度预测与优化模块，融合双流输出并消除冗余得到最终结果。

2.根据权利要求1所述的基于锚自由和长时注意力感知的视频交互动作检测方法，其特征在于，所述步骤3具体步骤如下：步骤3‑1：将带有位置信息的任意一层RGB或光流金字塔特征每个时间片段的内容映射成一个维度向量，使具有形状；利用注意力模块捕获中任意两个时间位置之间的相关性，计算特征的任意两个位置之间的关系，动态注意力模块定义如下：其中为三个映射函数，i和j代表任意两位置，与为金字塔同级特征中任意两个时间点的特征，其中对进行映射并保持其原有维度，对进行映射并保留其原有维度，表示对特征进行转置，使特征序列中任意两点之间建立关系，为控制两位置点之间是否有关的指示函数，其被初始化为两部分：；

步骤3‑2：将更新后的分为两部分和，并分别与初始特征加权，然后按通道维度拼接；再将前后文关系映射到通道维度得到特征，经过池化和卷积得到并与初始特征形状相同的，与输入初始特征相加形成最后的输出特征。

3.根据权利要求2所述的基于锚自由和长时注意力感知的视频交互动作检测方法，其特征在于，所述构建粗粒度预测与优化模块，融合双流输出并消除冗余得到最终结果具体步骤如下：步骤4‑1：将步骤3处理后的双流特征分别输入粗粒度预测模块，对每一层级特征的每一时间点位进行动作定位和分类，得到分类结果以及回归结果，其中为数据集动作类别数，对于每一时间点有粗粒度预测结果，将初步预测结果输送到细粒度优化模块输出得到分类结果以及回归结果，cls表示分类结果，reg表示回归结果；通过如下方式进行更新得到每一时间点有优化偏移量，并得到更新后结果；

；

步骤4‑2：将双流结果相加融合，利用Soft‑NMS方法消除冗余片段得到最终结果。

4.根据权利要求1所述的基于锚自由和长时注意力感知的视频交互动作检测方法，其特征在于，所述为金字塔特征每一层级嵌入位置信息具体步骤如下：金字塔任意一层特征为，其对应嵌入的位置信息为，其维度与对应层级特征维度相同，表示为；具体表示如下：其中表示时间维度上的位置，e表示编码的维度，e的取值范围为[0 c），c表示通道~维度大小；每个时间位置都对应唯一的位置编码，将位置编码嵌入到金字塔结构中的每一层特征中；具体地，同一层级的位置编码与对应特征维度相同，则将位置编码与特征对应相加；更新得到新的即，两位置间差异表示为：i与i+n表示任意两时间点位置，更新后的任意两位置间差异不仅包含运动差异还包含了时间位置距离；

由于位置函数均由正弦、余弦函数组成，其具体数值可通过简单的三角函数公式得出：。

5.根据权利要求3所述的基于锚自由和长时注意力感知的视频交互动作检测方法，其特征在于，得到粗粒度预测结果和细粒度优化结果后通过损失函数FocalLoss和L1Loss分别对粗粒度预测和细粒度优化的分类和定位目标函数优化，具体损失函数如下：其中为超参数，与分别为粗预测和细粒度优化的损失函数均采用FocalLoss，为粗预测起止片段与标签起止片段的IoULoss，为预测偏置和标签偏置的L1Loss。