买专利、卖专利、专利购买、专利交易、专利出售、高企申报-基于渐进注意力超图的视频时空动作定位方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

基于渐进注意力超图的视频时空动作定位方法

￥16800

专利号： 2022104815720

申请人：杭州电子科技大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-06-16

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.基于渐进注意力超图的视频时空动作定位方法，其特征在于，该方法对给定动作类别、动作时空标记的视频数据集合，依次进行如下操作：步骤(1)对视频进行预处理得到视频帧序列，并利用二维和三维卷积神经网络提取目标区域特征和视频时空特征图；

步骤(2)构建时空关系编码器，输入为目标区域特征和视频时空特征图，输出为初始目标上下文特征和时空关系矩阵；

步骤(3)构建渐进式变长滑窗模块，输入为视频帧序列、初始目标上下文特征和时空关系矩阵，输出为长期目标一阶特征；

步骤(4)构建具有共享属性约束和扩散机制的超图模块，输入为初始目标上下文特征和时空关系矩阵，输出为短期目标高阶特征；

步骤(5)构建目标动作回归模块，输入为长期目标一阶特征和短期目标高阶特征，输出为当前时刻所有目标的空间位置及动作类别；

步骤(6)利用随机梯度下降算法优化由时空关系编码器、渐进式变长滑窗模块、超图模块和目标动作回归模块组成的时空动作定位模型，对新的视频序列依次执行步骤(1)～(5)得到所有目标在不同时刻下的空间位置和动作类别。

2.如权利要求1所述的基于渐进注意力超图的视频时空动作定位方法，其特征在于，步骤(1)具体是：(1‑1)以每秒N帧的采样率对原始视频进行采样，获得帧数量为T′的视频帧序列集合其中表示实数域，Us表示第s帧，H′和W′表示视频帧的高和宽，3表示RGB三通道，N＝5～10；

(1‑2)以2×N帧作为单个视频片段，将原始视频帧序列划分为T个视频片段Vt表示第t个视频片段；然后将第t个视频

片段输入至三维卷积神经网络中，生成第t个视频片段时空特征图 H、W、C分别是特征图的高度、宽度、通道数，进而得到所有视频片段的时空特征图；

(1‑3)利用基于二维卷积神经网络的目标检测模型，对第t个视频片段Vt的中间帧进行目标检测，获取目标边界框的序列集合 i＝1,2,...,Nt，Nt表示第t个视频片段中间帧存在的目标个数，β＝0,1，β＝0表示目标为人的边界框，β＝1表示为目标为物体的边界框；表示第t个视频片段中间帧第i个目标的边界框，和表示第t个视频片段中第i个目标边界框的左上角的横坐标和纵坐标，和表示第t个视频片段中间帧第i目标边界框的右下角的横坐标和纵坐标；

(1‑4)根据目标边界框通过缩放的方式获得视频片段时空特征图中对应的目标边界框

通过双线性插值的

方式获取第t个视频片段目标特征图并执行全局平均池化操作得到目标特征H″、W″和C为目标特征图的高度、宽度和通道数。

3.如权利要求2所述的基于渐进注意力超图的视频时空动作定位方法，其特征在于，步骤(2)具体是：(2‑1)构建由三个全连接层组成的时空关系编码器，将第t个视频片段第i个目标特征输入至三个全连接层中，得到查询特征键特征以及值特征其中为可学习矩阵，d表示查询特征

和键特征的通道数，取d＜C；相同方法获得第t个视频片段第j个目标特征对应的键特征和值特征(2‑2)计算目标i与目标j之间的时空关系权重生成第t个视频片段所有目标的时空关系矩阵其中 softmax(·)表示Softmax函数，＜·,·＞表示内积；计算增强目标区域特征将沿空间维度进行复制，使其与视频片段t的时空特征图的维度一致，获得目标全局空间特征(2‑3)将目标全局空间特征与视频时空特征图X通道拼接操作，通过二维卷积层得到目标初始上下文特征 Conv2D1(·)表示输入通道为C'＝2·C、输出通道为C、卷积核尺寸为1×1×C'的二维卷积层，||表示通道拼接。

4.如权利要求3所述的基于渐进注意力超图的视频时空动作定位方法，其特征在于，步骤(3)具体是：(3‑1)渐进变长滑窗模块由动作辅助判别子模块和目标一阶特征库组成，动作辅助判别子模块使用直方图相似度进行动作粗粒度判别，目标一阶特征库用于存储所有历史视频片段的目标初始上下文特征得到历史目标上下文特征集合其中表示第φ个视频片段的第i个目标初

始上下文特征；

(3‑2)将当前第t时刻视频片段Vt的中间帧转换成RGB直方图矩阵第t‑1时刻视频片段Vt‑1的中间帧转换成RGB直方图矩阵其中3表示RGB通道，并用；

(3‑3)利用RGB直方图矩阵Zt和Zt‑1计算相邻视频片段中间帧之间的直方图相似度和表示第t个视频片段和第t‑1个视频片段中间帧通道为R、亮度为λ的像素点数量，和表示第t个视频片段和第t‑1个视频片段中间帧通道为G、亮度为λ的像素点数量，和表示第t个视频片段和第t‑1个视频片段中间帧通道为B、亮度为λ的像素点数量，0≤λ≤255；根据直方图相似度ρt,t‑1计算与第t个视频片段相似的视频片段数量 0＜δ＜1为阈值常数；

(3‑4)对所有视频片段执行步骤(3‑2)和(3‑3)，得到相似片段数量的向量窗口尺寸设置为ω＝min(τt,L1)，并从特征库中读取时间窗口[t‑ω,t)范围内的历史目标初始上下文特征集合 L1为预设最大窗口尺寸，min(·,·)表示取最小值；

(3‑5)利用目标时空关系矩阵Mt与Mt‑1计算第t个视频片段与第t‑1个视频片段之间的相似度相同方法计算得到Et,t‑2,...,Et,t‑ω，对相似度值序列进行降序排列，得到与第t视频片段最相似的前α个历史视频片段，并对各视频片段对应的目标初始上下文特征进行通道拼接操作，得到目标关联时空特征其中通道数C″＝α·C；将输入至二维卷积层中，得到与动作原始时长一致的长期目标一阶特征Conv2D2(·)表示输入通道为C″＝α·C、输出通道为C、卷积核尺寸为1×

1×C″的二维卷积层。

5.如权利要求4所述的基于渐进注意力超图的视频时空动作定位方法，其特征在于，步骤(4)具体是：(4‑1)利用目标的相对空间位置和目标属性构建具有共享属性约束和扩散机制的超图模块：首先计算第t个视频片段中间帧目标i与其他目标j的欧式距离和为第t个视频片段中间帧的目标i边界框和目标j边界框的中心位置坐标，dist(·,·)表示欧式距离；计算目标

i与当前帧的其他所有目标的距离，得到目标i的约束集合表示与目标i的距离小于δ′的目标集合，为阈值常数；

(4‑2)在约束集合内构建目标i与集合内其他目标间的高阶关系，目标i与目标j通过目标r建立的时空关系表示为R(i,r,j)，目标i和目标j是人，目标r是人或者物体，i≠j；具体是：根据步骤(2‑2)获得的时空关系矩阵Mt使用相同的目标进行关联表示共有目标r所在的空间位置，符号表示两者存在一阶关系，表现为目标间的一阶特征其生成方式是将第i个目标的初始上下文特征根据目标r的目标边界框进行裁剪，通过双线性插值操作，得到目标i与目标r的一阶特征相同方法得到目标j与目标r的一阶特征通过

生成目标i,j关于目标r的高阶特征，并写入与

目标i相关的高阶特征集合其中Conv2D3(·)为表示输入通道为C″′＝2C、输出通道为C、卷积核尺寸为1×1×C″′的二维卷积层；

(4‑3)利用目标i相关的高阶特征集ψ计算其短期目标高阶特征

6.如权利要求5所述的基于渐进注意力超图的视频时空动作定位方法，其特征在于，步骤(5)具体是：(5‑1)将长期目标一阶特征和短期目标高阶特征输入目标动作回归模块，获得目标定位与动作判别，具体是：首先将和进行逐元素求和操作得到逐元素和特征表示逐元素和；再将输入至二维卷积层并沿空间维度执行全局平均池化操作，得到目标分类得分 K表示动作类别数量，Conv2D4(·)表示为输入通道为C、输出通道为K、卷积核尺寸为1×1×C的二维卷积层，GAP(·)表示空间维度全局平均池化；

(5‑2)利用Softmax函数对目标分类得分进行处理，得到第t时刻动作类别为u的输出概率为 e表示自然底数；

(5‑3)将逐元素和特征通过两层二维卷积获得目标空间位置特征其中Conv2D5(·)表示为输入通道为C、输出通道为

256、卷积核尺寸为3×3×C的二维卷积层，Conv2D6(·)表示为输入通道为256、输出通道为

4、卷积核尺寸为1×1×256的二维卷积层；

(5‑4) 对目标空间位置特征通过全连接层，得到预测目标边界框和表示预测目标边界框的左上角坐标点的横坐标和纵坐标，和表示预测目标边界框的右下角坐标点的横坐标和纵坐标。

7.如权利要求6所述的基于渐进注意力超图的视频时空动作定位方法，其特征在于，步骤(6)具体是：(6‑1)构建由时空关系编码器、渐进式变长窗法模块、具有共享属性的约束和扩散机制的超图模块和目标动作回归模块组成的时空动作定位模型；

(6‑2)将训练视频采样成帧序列，输入时空动作定位模型，获得每个时刻下所有目标的空间位置及对应的动作类别，计算模型的交叉熵损失函数其中为真实标记，表示第t帧的第i个目标包含动作类别为u的动作；计算模型的距离交并比损失函数其中，表示预测目标边界框与真实目标边界框的交并比，为预测目标边界框，为目标边界框的左上角坐标，为目标边界框的右下角坐标，为真实目标边界框，表示目标边界框的中心位置坐标，表示

真实目标边界框的中心位置坐标，表示能够同时包围真实边界框和预测边界框的最小边界框的左上角的坐标，表示能够同时包围真实边界框和预测边界框的最小边界框的右下角的坐标，max(·,·)表示取最大值；

(6‑3)利用随机梯度下降算法优化上述时空动作定位模型，迭代训练该模型直至收敛，获得优化的时空动作定位模型；

(6‑4)对于新的视频通过采样得到视频帧序列，并输入上述优化的时空动作定位模型，依照步骤(1)～(5)依次执行，输出视频片段所有目标当前时刻的空间位置及其动作类别。