利索能及
我要发布
收藏
专利号: 2021108445573
申请人: 南京信息工程大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-30
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.基于Transformer的视频多标签动作识别方法,其特征在于,具体包括如下步骤:步骤1:采用3D‑CNN的方法提取长视频的特征序列,特征序列中第i个特征向量对应在长视频中时序位置为i的视频帧;i=1,2,…,m,m为特征序列中特征向量的总个数,步骤2:对特征序列进行降维处理,得到新的特征序列F;

步骤3:将新的特征序列F与预设第一权重矩阵W相乘得到特征序列V,V={v1,v2,…,vi,…,vm},其中vi为V中第i个元素;

步骤4:对V中每个元素对应的视频帧在长视频中的时序位置进行编码得到位置编码矩阵P={p1,p2,…,pi,…,pm},pi为P中第i个元素;

步骤5:将步骤3得到的特征序列V和位置编码矩阵P分别作为Transformer编码器的输入,得到Transformer编码器输出的序列V'={v'1,v'2,…,v'i,…,v'm},v'i为V'中第i个元素;

步骤6:根据V'提取长视频中关键动作的开始帧和结束帧,将V'中与开始帧对应的元素作为开始元素v'start;将V'中与结束帧对应的元素作为结束元素v'end;

步骤7:采用预设的序列作为开始标记,将开始标记与位置编码矩阵P分别作为Transformer解码器的输入;

步骤8:将v'start,v'end以及V'中位于v'start和v'end之间的元素按照对应的视频帧在长视频中的时序位置依次排序组成序列 将 乘以预设的第二权重矩阵得到矩阵K,将 乘以预设的第三权重矩阵得到矩阵K';将矩阵K和矩阵K'输入至Transformer解码器的Muti‑headAttention层;

步骤9:Transformer解码器输出长视频中关键动作的所有分类标签;

所述步骤6中根据V'提取长视频中关键动作的开始帧和结束帧具体为:设置第一网络模型和第二网络模型;所述第一网络模型和第二网络模型的结构相同均包括相互连接的点乘模块和softmax模块,将第一网络模型和第二网络模型均作为学生网络,采用教师网络分别对第一网络模型和第二网络模型进行训练;得到第一网络模型的权重向量S和第二网络模型的权重向量E;

将序列V'输入至训练好的第一网络模型,点乘模块将V'中的元素与权重向量S进行点乘得到向量A={a1,a2,…,ai,…,am},其中ai=v'i·S;将向量A输入至softmax模块根据如下公式计算A中每个元素的概率,并选择概率最大的元素对应的视频帧作为开始帧:(·)

其中exp(·)表示e ;

将序列V'输入至第二网络模型中,点乘模块将V'中的元素与权重向量E进行点乘得到向量A’;将向量A’输入至softmax模块计算A’中每个元素的概率,并选择概率最大的元素对应的视频帧作为结束帧。

2.根据权利要求1所述的基于Transformer的视频多标签动作识别方法,其特征在于,采用教师网络,通过知识蒸馏的方式对Transformer编码器和Transformer解码器进行训练。

3.根据权利要求1所述的基于Transformer的视频多标签动作识别方法,其特征在于,所述步骤4中根据如下公式计算得到pi:其中,M为V中每个元素的维度,且M为偶数。