利索能及
我要发布
收藏
专利号: 2022104480801
申请人: 杭州电子科技大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-11-27
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于多时间分辨率时态语义聚合网络的时序动作定位方法,其特征在于:所述基于多时间分辨率时态语义聚合网络的时序动作定位方法包括如下步骤:S1、获取原始视频并进行预处理,所述预处理为从原始视频中提取特征序列所述特征序列X携带有注释标签其中,时间分辨率T=S/σ,S为原始视频的总帧数,σ为不同片段xi之间间隔的帧数,C为片段xi的特征维度,kn为第n个动作,ts,n、te,n和Cn依次为第n个动作的开始时间、结束时间和动作种类,N为特征序列X的动作数量;

S2、复制特征序列X为N'份,并通过卷积层将复制后的各特征序列X的时间分辨率调整为不同值;

S3、建立多时间分辨率时态语义聚合网络,所述多时间分辨率时态语义聚合网络包括依次连接的第一特征提取单元、第二特征提取单元、第三特征提取单元和后处理模块,所述第一特征提取单元包括N'个并行的子模块,所述子模块包括依次连接的第一时态语义上下文融合模块和第一注意力单元,所述第二特征提取单元用于将各所述第一注意力单元的输出特征图进行相加聚合,所述第三特征提取单元包括依次连接的第二注意力单元、第七特征提取单元和第二时态语义上下文融合模块,其中:各所述时态语义上下文融合模块,包括第四特征提取单元、以及并行的第一分支单元、第二分支单元和第三分支单元,所述第一分支单元用于输出对应时态语义上下文融合模块的原始输入特征图,所述第二分支单元包括依次连接的自注意力模块、第五特征提取单元和第一分组卷积单元,所述第五特征提取单元还与所述自注意力模块的输入端连接,用于进行相加聚合,所述第三分支单元包括依次连接的动态图卷积网络、第一Involution卷积层、第二Involution卷积层、第六特征提取单元、第一MobileNet网络、第二分组卷积单元和第二MobileNet网络,所述第六特征提取单元还与所述动态图卷积网络的输出端连接,用于进行相加聚合,所述第四特征提取单元用于将所述第一分支单元、第二分支单元和第三分支单元的输出特征图进行相加聚合;

各所述注意力单元基于八头注意力机制进行局部特征和全局特征提取;

所述第七特征提取单元用于将所述第二注意力单元的输出特征图与超参数1/N'进行相乘操作;

所述后处理模块包括依次连接的上采样模块、concat层和全连接层,所述上采样模块还与所述第二时态语义上下文融合模块的动态图卷积网络的输出端连接;

S4、将时间分辨率调整后的各特征序列X一一对应输入所述子模块,采用分类损失和回归损失训练多时间分辨率时态语义聚合网络;

S5、利用训练好的多时间分辨率时态语义聚合网络预测待识别视频的动作开始时间、动作结束时间、动作种类和置信分数。

2.如权利要求1所述的基于多时间分辨率时态语义聚合网络的时序动作定位方法,其特征在于:步骤S2中,N'=3,调整后的各特征序列X的时间分辨率分别为T、T/2、256。

3.如权利要求1所述的基于多时间分辨率时态语义聚合网络的时序动作定位方法,其特征在于:各所述分组卷积单元采用32条路径。

4.如权利要求1所述的基于多时间分辨率时态语义聚合网络的时序动作定位方法,其特征在于:所述第五特征提取单元、第二Involution卷积层、第四特征提取单元的输出端均连接有Relu激活函数。

5.如权利要求1所述的基于多时间分辨率时态语义聚合网络的时序动作定位方法,其特征在于:所述第五特征提取单元将80%的原始输入特征图和20%的自注意力模块的输出特征图进行相加聚合。

6.如权利要求1所述的基于多时间分辨率时态语义聚合网络的时序动作定位方法,其特征在于:所述注意力单元分别采用四头注意力机制进行局部特征和全局特征提取。

7.如权利要求1所述的基于多时间分辨率时态语义聚合网络的时序动作定位方法,其特征在于:所述分类损失Lc和回归损失Ln,计算公式如下:Lc=Lwce(ps,dss)+Lwce(pe,dse)

Ln=Lwce(pcls,1{ψc>0.5})+ω1·Lmse(preg,ψc)

其中,Lmse为均方误差损失,Lwce为加权交叉熵损失,ps为每个片段对应的预测开始概率,pe为每个片段对应的预测结束概率,dss为每个片段对应的ps的训练目标,dse为每个片段对应的pe的训练目标,pcls为分类损失对应的得分,preg为回归损失对应的得分,ω1为权衡系数,ψc为最大的IoU。