利索能及
我要发布
收藏
专利号: 2024103311097
申请人: 苏州科技大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-04-09
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种面向意图分析的视频分类方法,其特征在于,所述方法包括:步骤1:获取待分类视频,并将所述待分类视频均匀地划分为多个片段,随机选择每个片段中的一帧来组成输入的RGB视频帧序列;

步骤2:将所述RGB视频帧序列输入基于外观的视觉编码器,得到所述待分类视频的每个类别的得分;

步骤3:将所述RGB视频帧序列和视频中对象的类别标签输入对象mask生成网络,得到图片中每个对象对应的mask表示;

步骤4:对每个对象的mask编码位置信息,获得具有位置信息的对象聚合特征;

步骤5:将每个对象的聚合特征进行特征融合,利用所述聚合特征的位置编码直接连接不同时间点上同一对象的特征,得到每个对象在视频帧序列中的运动轨迹;

步骤6:对于每个对象的运动特征,采用Nonlocal模块对不同对象的位置特征与所有其他对象位置特征进行相似性计算,得到相似度矩阵,基于所述相似度矩阵,将每个位置特征与其他位置特征进行加权聚合;

步骤7:将加权聚合后的特征进行平均池化,并输入MLP网络,得到的每个类别的得分;

步骤8:将所述步骤2和步骤7得到的每个类别的得分进行加权融合,得到最终的分类结果;

所述步骤4包括:

步骤41:针对每个对象设计独立的位置编码,对于每个像素2D位置坐标(x,y)使用正弦函数和余弦函数将其编码成一个具有dmodel维的向量表示,具体的过程用以下公式表示:其中,p代表输入的二维坐标点,i代表编码的维度,dmodel代表模型的输入维度,每个维度都按照不同的频率进行编码,以便捕捉不同位置之间的相对关系;

第i个维度的值为:

Vx,y,i=sin(x,2i),i为偶数

Vx,y,i=cos(y,(i‑1)/2),i为奇数步骤42:将所有的输入点映射为一个位置编码矩阵Z,其中每一行都对应着一个输入点的编码向量:步骤43:将所述位置编码矩阵Z与词向量矩阵相加,得到一个增强了位置信息感知能力的输入矩阵,通过位置编码获得对象的聚合特征,所述聚合特征中包含对象的空间信息以及时间变化,表示为:其中,N为对象个数,T为视频帧数量。

2.根据权利要求1所述的视频分类方法,其特征在于,所述步骤3中的对象mask生成网络为自监督模型。

3.根据权利要求1所述的视频分类方法,其特征在于,所述步骤2中基于外观的视觉编码器为TSM模块。

4.一种面向意图分析的视频分类系统,其特征在于,所述系统包括:视频帧序列获取模块,用于获取待分类视频,并将所述待分类视频均匀地划分为多个片段,随机选择每个片段中的一帧来组成输入的RGB视频帧序列;

基于外观的视频编码器模块,用于得到所述待分类视频的每个类别的得分;

对象mask生成网络模块,用于生成图片中每个对象对应的mask表示;

特征聚合模块,用于对每个对象的mask编码位置信息,获得具有位置信息的对象聚合特征;

特征融合模块,用于将每个对象的聚合特征进行特征融合,利用所述聚合特征的位置编码直接连接不同时间点上同一对象的特征,得到每个对象在视频帧序列中的运动轨迹;

Nonlocal模块,用于对不同对象的位置特征与所有其他对象位置特征进行相似性计算,得到相似度矩阵,基于所述相似度矩阵,将每个位置特征与其他位置特征进行加权聚合;

MLP网络模块,将加权聚合后的特征进行平均池化,并输入MLP网络,得到得每个类别的得分;

分类输出模块,用于将所述基于外观的视频编码器模块和MLP网络模块得到的每个类别的得分进行加权融合,得到最终的分类结果;

所述特征聚合模块的计算过程包括:

步骤41:针对每个对象设计独立的位置编码,对于每个像素2D位置坐标(x,y)使用正弦函数和余弦函数将其编码成一个具有dmodel维的向量表示,具体的过程用以下公式表示:其中,p代表输入的二维坐标点,i代表编码的维度,dmodel代表模型的输入维度,每个维度都按照不同的频率进行编码,以便捕捉不同位置之间的相对关系;

第i个维度的值为:

Vx,y,i=sin(x,2i),i为偶数

Vx,y,i=cos(y,(i‑1)/2),i为奇数步骤42:将所有的输入点映射为一个位置编码矩阵Z,其中每一行都对应着一个输入点的编码向量:步骤43:将所述位置编码矩阵Z与词向量矩阵相加,得到一个增强了位置信息感知能力的输入矩阵,通过位置编码获得对象的聚合特征,所述聚合特征中包含对象的空间信息以及时间变化,表示为:其中,N为对象个数,T为视频帧数量。

5.根据权利要求4所述的视频分类系统,其特征在于,所述对象mask生成网络模块为Transformer的全局自注意机制。

6.根据权利要求4所述的视频分类系统,其特征在于,所述基于外观的视觉编码器模块为TSM模块。

7.一种电子设备,其特征在于,包括存储器和处理器;

所述存储器,用于存储计算机程序;

所述处理器,用于当执行所述计算机程序时,实现如权利要求1至3任一项所述的视频分类方法。

8.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,实现如权利要求1至3任一项所述的视频分类方法。