1.一种基于视频语义特征和可扩展粒度感知的时序动作检测方法,其特征在于,包括以下步骤:
1)视频特征提取;
将待检测的动作视频,通过预训练的I3D网络对整个视频进行特征提取,获得整个视频的时空特征序列,每个视频会以特征序列来表示;
2)序列到序列的视频语义特征提取;
201.将步骤1)中的时空特征序列进行序列特征提取归一化操作作为视讯序列Video2sequence和视频语义特征提取模块的输入;
202.Video2sequence和视频语义特征提取模块利用预训练的BERT作为编码器得到视频特征标记,BERT是来自变换器的双向编码器表征量,通过多模态转换编码器将视频的时空特征序列转换为视频语义特征序列;
203.将Video2sequence和视频语义特征提取模块产生的视频语义特征序列进行特征重塑,作为Video2sequence和视频语义特征提取模块的语义流输出;
3)可扩展粒度感知特征金字塔特征提取;
301.将步骤1)中的时空特征序列作为可扩展粒度感知特征金字塔模块的输入;
302.可扩展粒度感知特征金字塔模块利用实例级Instant‑level分支增加时序特征的可区分性和窗口级Window‑level分支使网络自适应的抽取不同尺度的特征得到视频流输出;
可扩展粒度感知特征金字塔特征提取的具体过程是:将视频的时空特征序列通过Instant‑level分支和Window‑level分支进行特征提取;其中Instant‑level分支的目标是通过扩大动作和非动作时刻级特征与视频级平均特征的特征距离来提高动作和非动作时刻级特征的可辨别性;Instant‑level分支通过全连接层获取的动作和非动作时刻级特征FC(x)与视频级平均特征进行element‑wise相乘,视频级平均特征表示为:φ(x)=ReLU(FC(AvgPool(x)));
其中,FC表示全连接层,AvgPool(x)是时间维度上所有特征的平均池化,ReLU表示ReLU函数;
Window‑level分支的目的是通过分支ψ从更广泛的感受野中引入语义内容,其分支ψ有助于动态地聚焦于不同尺度的特征;Window‑level分支通过一个卷积尺寸为w的Convw和卷积尺寸为k·w的Convkw来提取特征,利用分支ψ对以上两个卷积的求和结果进行element‑wise相乘操作,其中分支ψ表示为:ψ(x)=Convw(x);
其中Convw表示卷积尺寸为的w时间维度的1D深度卷积;
将Instant‑level分支得到的动作和非动作时刻级特征FC(x)与视频级平均特征的相乘结果与Window‑level分支得到的分支ψ和两个卷积求和的相乘结果以及时空特征序列相加求和得到视频流可扩展粒度感知特征,表示为:fSGP=φ(x)FC(x)+ψ(x)(Convw(x)+Convkw(x))+x;
其中,FC和Convw分别表示全连接层和窗口大小w为的时间维度的1D深度卷积,k表示可缩放因子,旨在捕获更大粒度的时间信息;
4)视频语义特征与可扩展粒度感知特征融合;
401.将语义流Video2sequence和视频语义特征提取模块产生的特征和来自视频流可扩展粒度感知特征金字塔模块产生的特征进行拼接融合得到用于分类和定位特征序列;
402.将语义流Video2sequence和视频语义特征提取模块产生的特征和来自视频流可扩展粒度感知特征金字塔模块产生的特征进行融合后送入基于三头Trident‑Head的检测头,获得最终的分类结果和定位偏移。
2.根据权利要求1所述基于视频语义特征和可扩展粒度感知的时序动作检测方法,其特征在于,步骤201时空特征序列进行序列特征提取归一化操作的具体过程是:加载THUMOS数据集,并选择动作分类作为数据标签;
将每个时间窗口的特征提取为序列数据,进一步进行归一化操作:
归一化操作旨在将特征值范围映射到[‑1,1];
其中X是原始特征值,Xmin和Xmax分别是特征值的最小值和最大值,得到归一化后的特征序列Xnormalized;
将经过特征提取和归一化的时间窗口数据按照顺序组成序列,形成输入序列数据;
对多维特征数据进行重塑reshape,将其展平成一维向量并输入BERT,以此通过序列特征提取归一化得到BERT模型的输入。
3.根据权利要求1所述基于视频语义特征和可扩展粒度感知的时序动作检测方法,其特征在于,步骤202Video2sequence和视频语义特征提取模块使用BERT作为编码器,目标是将视频特征序列转换为语义特征序列,具体表示方式如下:使用来自Swin‑BERT的预训练权重作为编码器,Swin‑BERT用于生成自然语言描述给定视频的视觉内容的任务,需要模型理解和建模视频中的时空动态以及视觉和文本元素之间的关系,并生成一系列输出语义,该模型从提取的视频表示中学习,其中使用VidSwin作为视觉编码器,将原始视频帧编码为视频特征标记,给定尺寸为T×H×W×3的原始视帧,由T帧组成,每个帧具有H×W×3的特征尺寸,将它们输入VidSwin,并从VidSwin的最后一个编码器块中提取网格特征,VidSwin的网格特征定义为大小 其中C是通道尺寸;然后,沿通道维度对网格特征进行标记,得到总共 视频标记,每个标记都是一个8C维度的特征向量,将视频标记输入多模态转换编码器中以生成视频语义描述,在此之上,使用Swin‑BERT将时空特征序列转换为语义特征表示,具体过程描述为:Video_Semantics=BERT(Spatio_Temporal_Features);其中,Video_Semantics表示得到的视频语义特征序列,BERT表示Swin‑BERT模型,Spatio_Temporal_Features表示视频的时空特征序列;
在BERT中,给定输入序列:X=Spatio_Temporal_Features,其经过自注意力计算后的输出表示为:其中,WQ、WK和Wv是权重矩阵,·表示矩阵乘法,dk是缩放因子,Softmax表示Softmax函数,softmax函数为输入序列中的每个位置计算出加权的表示,捕捉输入时空特征序列的语义关系,从而实现视频特征序列转换为语义特征序列。
4.根据权利要求1所述基于视频语义特征和可扩展粒度感知的时序动作检测方法,其特征在于,步骤203中特征重塑的方法为:将Video2sequence和视频语义特征提取模块产生的视频语义特征序列进行特征重塑,作为Video2sequence和视频语义特征提取模块的语义流输出,准备与来自可扩展粒度感知特征金字塔模块产生的特征进行特征融合;在进行特征融合前,需要对来自语义流的特征进行特征重塑操作,使语义流的特征尺寸与视频流对齐,以确保两个特征序列能够正确地贴合到一起;
使用线性变换对特征进行重塑,表示为:
faligned_semantic=w·Video_Semantics+b;
其中,faligned_semantic表示重塑后的语义特征,Video_Semantics是视频语义特征序列,w是权重矩阵,b是偏置向量,此操作对视频语义特征进行线性变换,将其映射到新的表示空间。
5.根据权利要求1所述基于视频语义特征和可扩展粒度感知的时序动作检测方法,其特征在于,步骤401中特征拼接的方法是,为了将经过特征重塑的语义流视频语义特征faligned_semantic与视频流可扩展粒度感知特征fSGP进行融合,首先使用CNN卷积神经网络对语义流视频语义特征faligned_semantic和视频流可扩展粒度感知特征fSGP进行特征提取,具体过程表示为:其中,(i,j)表示输出特征图中的位置,X(i+m‑1,j+n‑1,c)表示输入特征矩阵中的元素,K(m,n,c)表示卷积核中的对应元素,对X的两次操作分别表示faligned_semantic和fSGP;之后,使用注意力机制attention mechanism辅助特征融合,它允许网络自动学习不同特征之间的权重,通过点积计算faligned_semantic和fSGP之间的相关性得分score:Score(i)=faligned_semantic(i)·fSGP(i);
其中,i表示特征索引,将得分通过Softmax函数转化为注意力权重分布,使得权重的总和为1:其中,j∈(0,i),以此将注意力权重赋予每个位置的特征;
最后,使用注意力权重对视频流可扩展粒度感知特征进行加权求和,得到最终的融合特征序列,表示为:ffinal(i)=∑jAttention_Weights(j)·fSGP(j)。
6.根据权利要求1所述基于视频语义特征和可扩展粒度感知的时序动作检测方法,其特征在于,步骤402中的Trident‑Head由三个分支构成:开始边界分支、结束边界分支以及中间偏移量分支;开始边界分支、结束边界分支分别预测的是每个时刻作为开始边界和结束边界的响应强度;中间偏移量分支的预测的是,以实例Instant为参考时,其左右相邻的局部时间集合中每个时刻作为动作起点或者终点的响应强度;给定语义流视频语义特征和T×D视频流可扩展粒度感知特征融合得到的融合特征序列f(i) final,从三个分支中得到三个T T T×2×(B+1)特征序列,表示为:Fs∈R,Fe∈R以及Fc∈R ;
其中Fs和Fe分别表示开始边界分支和结束边界分支的预测强度,FC表示中间偏移量的预测强度,B表示用于边界预测的箱子数;
然后通过在局部窗口内计算期望值,得到每个Instant到边界的预测值,估计第t个时刻到动作起点的距离dst,通过如下计算:[(t‑B):t]
其中, 是相对概率,它表示每个瞬间作为箱子集合内动作开始的概率;Fs 和分别表示时刻t的左相邻集合的特征和仅预测的中心偏移的特征;dst表示第t个时刻到动作起点的距离;
经过Trident‑Head的检测头得到最终的融合特征,将融合后的特征输入到一个全连接层,最终映射为行为类别的概率分布。
7.一种基于视频语义特征和可扩展粒度感知的时序动作检测装置,其特征在于,包括:视频特征提取单元,用于对整个视频进行特征提取;
视频语义特征提取单元,包括输入模块、编码器及输出模块,输入模块为特征序列进行序列特征提取归一化操作后的视频语义特征,编码器用于将视频的时空特征序列转换为视频语义特征序列,输出模块为进行特征重塑的视频语义特征序列;
特征融合单元,将输出模块输出和来自视频流SGP即可扩展粒度感知特征金字塔的输出进行拼接并送入基于Trident‑Head的分类处理;
可扩展粒度感知特征金字塔特征提取的具体过程是:将视频的时空特征序列通过Instant‑level分支和Window‑level分支进行特征提取;其中Instant‑level分支的目标是通过扩大动作和非动作时刻级特征与视频级平均特征的特征距离来提高动作和非动作时刻级特征的可辨别性;Instant‑level分支通过全连接层获取的动作和非动作时刻级特征FC(x)与视频级平均特征进行element‑wise相乘,视频级平均特征表示为:φ(x)=ReLU(FC(AvgPool(x)));
其中,FC表示全连接层,AvgPool(x)是时间维度上所有特征的平均池化,ReLU表示ReLU函数;
Window‑level分支的目的是通过分支ψ从更广泛的感受野中引入语义内容,其分支ψ有助于动态地聚焦于不同尺度的特征;Window‑level分支通过一个卷积尺寸为w的Convw和卷积尺寸为k·w的Convkw来提取特征,利用分支ψ对以上两个卷积的求和结果进行element‑wise相乘操作,其中分支ψ表示为:ψ(x)=Convw(x);
其中Convw表示卷积尺寸为的w时间维度的1D深度卷积;
将Instant‑level分支得到的动作和非动作时刻级特征FC(x)与视频级平均特征的相乘结果与Window‑level分支得到的分支ψ和两个卷积求和的相乘结果以及时空特征序列相加求和得到视频流可扩展粒度感知特征,表示为:fSGP=φ(x)FC(x)+ψ(x)(Convw(x)+Convkw(x))+x;
其中,FC和Convw分别表示全连接层和窗口大小w为的时间维度的1D深度卷积,k表示可缩放因子,旨在捕获更大粒度的时间信息。
8.一种服务器,其特征在于,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1‑4任一所述的方法。
9.一种计算机可读介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1‑5中任一所述的方法。