利索能及
我要发布
收藏
专利号: 2024107272424
申请人: 南宁师范大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-30
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于长短期时间差分的动作识别视觉转换方法,其特征在于,包括以下步骤:

步骤一:输入视频,利用整个视频信息的视频级学习动作模型建立长短期运动差值(LSMD)框架;

步骤二:在图像模型的框架的基础上,利用时间差算子来捕获短期和长期运动信息;

步骤三:将所述短期运动信息的融合放置到图像模型输入之前,形成短期运动信息图像(SMIF);

步骤四:在所述图像模型中增加长期运动信息模块(LMIM),通过时间差因子获取长期运动信息;

步骤五:将输入的所述视频通过所述SMIF变成所述图像模型的框架的图片形式,再将其送入到所述添加LMIM的图像模型中。

2.如权利要求1所述的基于长短期时间差分的动作识别视觉转换方法,其特征在于,所述步骤一中的所述LSMD是一种在2D Transformers结构中促进有效时空自我注意力(SA)建模的策略,能够提供高效的图像表示。

3.如权利要求1所述的基于长短期时间差分的动作识别视觉转换方法,其特征在于,所述步骤三中的所述SMIF作用于网络输入,通过融合时间差异信息,用于提取段内图像的运动信息,使得单帧RGB能够感知局部运动。

4.如权利要求3所述的基于长短期时间差分的动作识别视觉转换方法,其特征在于,所述步骤三中的所述SMIF的具体操作方式为:对于每一采样帧Ii,我们在一个以Ii为中心的局部窗口中提取了上下两帧做短期图像集合Si=[Ii‑2,Ii‑1,Ii,Ii+1,Ii+2],在短期图像集合中两两互相作差,做短期时间差分:[Di‑2,Di‑1,Di,Di+1]=[Ii‑2‑Ii‑1,Ii‑1‑Ii,Ii‑Ii+1,Ii+1‑Ii+2]短期时间差分由于图像噪声干扰以及光照变化,尽管只有人物本身产生变换,但远离人物的地方仍会就算出一些微小的变化,此类变化不应该被认为反映真实的运动,为了舍弃这些小的变化,根据SSTSA提出的运动聚焦思想,我们提出时差抑制(TDI)方法,具体来说,在帧差图像D上应用一个阈值,将低于阈值的像素变成0,达到抑制干扰的目的:其中α是阈值1≥α≥0,k=Xmax‑Xmin是反映输入像素强度值的输入的缩放因子,即若当输入D未进行归一化时,K=255,β是加强运动信息的增强因子,在图像中,将移动过的像素增强β倍,以加强抑制干扰的效果;对于来自i段的Ii帧,我们将其同一段的相邻帧表示为Ii‑1和Ii+1;因此,我们可以得到前向时间差和后向时间差为:SSTSA研究表明,通过双向计算分析相邻帧,捕捉前视图和后视图的动态动作趋势,该模型能够很好地捕捉当前帧中的运动细节,而无需大量参数,为方便计算, 后面和 前面分别添加了零映射,确保帧数恢复到初始状态,为了分析两个方向的时间趋势,集体时间方差的处理方法如下:然后沿时间通道维度SD(Ii)=[Di‑2,Di‑1,Di,Di+1,Di+2]进行平均帧差操作。

D(Ii)=AVG(Di‑2,Di‑1,Di,Di+1,Di+2)

其中AVG表示将四张帧差图像平均求和成一张短期抑制帧差图像D(Ii),最后再将D(Ii)添加到原始输入片段X中,便可得到短期信息帧差图像。

5.如权利要求1所述的基于长短期时间差分的动作识别视觉转换方法,其特征在于,所述步骤四中的所述LMIM是一个与现有2D Transformers相融合的模块,它的显著特点在于能够捕获视频活动的长期时间动态,而无需额外参数或增加计算需求。

6.如权利要求5所述的基于长短期时间差分的动作识别视觉转换方法,其特征在于,所述步骤四中的所述LMIM在插入到block L中,除了考虑到计算成本,长期运动信息帧间的空间位置变换也是一个问题,因此,设计了缩减特征维数的模块,首先,将特征维数缩减到原来的1/r,通过相邻段计算对齐后的时间差:其中C(Fi,Fi+1)表示段Fi对齐后的时间差, 和 是缩减特征数后的帧级特征,从而缓解长期运动对齐缺失问题,由于相邻帧的相减只产生T‑1个时间差,所以我们需要在Cf的起始和Cb的结束部分分别添加零映射,补偿因相邻帧减少而导致的时间差减少,然后,采用双向跨期时差法,利用对齐的时差优化段间特征,具体如下:其中⊙为基于元素的乘法,我们还结合了原始帧级表示,并通过上述公式所示的残差连接增强表示,所述SMIF会与所述LMIM相互补充,互相提供信息,辅助模型对特征的提取。

7.如权利要求1所述的基于长短期时间差分的动作识别视觉转换方法,其特征在于,所述基于长短期时间差分的动作识别视觉转换方法的具体操作方式为:由于每段视频长短不一,将视频V分成T段,不重叠,我们从每段中选取帧表示为X,形状为[N,T,C,H,W],其中N是同时处理的视频数,T是帧序列大小,C是特征通道,H和W分别是每帧的长度和宽度,每帧之间间隔相同,总共得出T帧I=[I1,…,IT],其中I的形状为[T,C,H,W],SMIF旨在为图像提供局部运动信息,以提高其表达能力:SMIF:

其中,表示短期运动信息图像,它从Ii的相邻帧中提取局部运动信息,D表示帧差图像,F表示将这些帧送入2D Transformer中提取到的帧级特征,其中F=[F1,…,FT],长期运动模块主要利用跨段时间结构来增强帧级特征表示:LMIM:

其中,L表示LMIM模块,在长期运动信息中,在每个长期时间建模中只考虑相邻帧的信息,通过多个LMIM叠加,模型能够捕获长期运动中的时间结构。