1.一种双流神经网络时序动作定位方法,其特征在于,该方法首先获取视频数据集,然后进行如下操作:步骤(1).对视频采样处理,获得视频帧流图像序列和视频光流图像序列;
步骤(2).构建双流神经网络边界分割模型,完整视频的帧流以及光流图像序列作为输入,视频动作的边界信息作为输出;
步骤(3).构建稀疏采样动作识别模型,输入为视频片段的帧流以及光流图像序列的稀疏采样序列,输出为视频片段对各动作类别的概率;
步骤(4).对新视频根据边界分割模型确定候选片段并用稀疏采样动作识别模型判定候选片段动作类别,完成定位任务。
2.如权利要求1所述的一种双流神经网络时序动作定位方法,其特征在于:步骤(1)具体方法是:(1-1).以每秒10~50帧的采样率将视频V处理为一个帧流图像序列N表示帧流图像数目,fi表示序列中第i幅宽为w、高为h的RGB三通道图像;
(1-2).通过帧流图像生成对应的水平方向与竖直方向的光流图像序列N表示光流图像数目,且与帧流图像的数目相同,ofi表示序列中第i幅宽为w、高为h包含竖直方向和水平方向的光流双通道图像,且根据下标i与帧流图像对应。
3.如权利要求1所述的一种双流神经网络时序动作定位方法,其特征在于:步骤(2)具体方法是:(2-1).参与模型构建的视频包含动作片段标记信息,标记信息记为其中M表示不含背景片段的视频V内动作片段数目,对于第j个动作片段,sj表示该片段动作开始帧,ej表示该片段动作结束帧,cj以数字表示该片段对应的动作种类,C表示视频的动作种类数目;
双流序列包括帧流图像序列 和光流图像序列 边界分割模型采用每隔8帧选16帧作为候选边界单元的策略;
(2-2).根据标记信息L获得所有动作片段的开始帧和结束帧信息,若候选边界单元内包含任意开始帧或结束帧,则定义其为边界单元并将该单元标记为正例,否则标记为负例;
(2-3).使用浅层神经网络结构作为双流神经网络边界分割模型的骨干结构,为双流序列提供两个并行神经网络结构A1与A2,采用Softmax层为输出层并利用交叉熵损失函数;具体操作是:①假定Softmax层的输出概率为yk, 其中 表示Softmax层的输入,e表示自然底数,y0表示为非边界单元的概率,y1表示为边界单元的概率;
②假定Softmax层的真实标记为 则交叉熵损失函数为若该单元为边界单元则 否则为
(2-4).将候选边界单元的帧流图像序列和光流图像序列分别输入双流神经网络边界分割模型中的A1与A2,各自通过Softmax输出层获取该候选单元属于边界单元的概率,然后利用(2-2)的正负例单元标记信息计算交叉熵损失;
(2-5).利用随机梯度下降算法优化训练双流神经网络边界分割模型,通过反向传播分别对双流神经网络边界分割模型内的A1和A2各层的参数并进行调整更新。
4.如权利要求1所述的一种双流神经网络时序动作定位方法,其特征在于步骤(3)具体方法是:(3-1).输入的视频片段是原始视频根据标记信息 中动作开始帧s和动作结束帧e作为边界分割而成的2M+1个片段,其中有M个动作片段,有M+1个背景片段,第j个动作片段的类别标记为cj,背景片段则均标记为0;
(3-2).对于每一个视频片段S,其帧流图像序列为 光流图像序列为其中P表示片段内的图像数目;
(3-3).将片段S平均分割为α个子片段后,对每个子片段进行稀疏采样,即随机选择子片段内的三个相差τ帧的帧流图像序列和对应的光流图像序列,每个片段共分别获得α组帧流图像序列和光流图像序列;
(3-4).使用深层神经网络结构作为稀疏采样视频动作识别模型的骨干结构,并为(3-
2)中片段的双流采样序列提供两个并行神经网络结构A3与A4,均设置神经网络Softmax层和利用交叉熵损失函数;具体操作是:a.假定Softmax层获得的视频动作类别k的输出概率为yk, 其中C表示动作类别总数, 表示Softmax层的输入,e表示自然底数;
b.交叉熵损失函数的计算公式为 其中 表示视频
动作类别k的真实概率,若片段属于类别k则为1,否则为0;
(3-5).将α组帧流图像序列和光流图像序列的采样分别输入(3-4)中的稀疏采样视频动作识别模型中的A3和A4,各自通过Softmax层获取概率,然后利用片段的动作种类标记信息计算交叉熵损失;
(3-6).利用随机梯度下降算法反向传播分别对稀疏采样视频动作识别模型内的A3和A4各层的参数进行调整更新。
5.如权利要求1所述的一种双流神经网络时序动作定位方法,其特征在于步骤(4)具体方法是:(4-1).以每秒10~50帧的采样率将新视频V'处理为一个帧流图像序列 通过帧流图像生成对应的水平方向与竖直方向的光流图像序列(4-2).将帧流图像序列 和光流图像序列 输入双流神经网络边界分割模型,每隔8帧选16帧作为候选边界单元,将单元内的帧流图像序列和光流图像序列分别输入至分割模型内的A1与A2,分别得到二维向量输出: 和 单元对应结果BR=Average(BR1,BR2),Average(·,·)表示取多个向量对应元素的平均值,表示单元属于边界单元与非边界单元的概率;
(4-3).将属于边界单元概率大于阈值θ的单元设为边界单元,得到M'个边界单元并在所有边界单元的二分之一处对视频V'进行分割,获得分割后的2M'+1个片段,并记录每个片段的开始帧s'与结束帧e';
(4-4).将(4-3)得到的每个片段平均分割为α个子片段,再对每个子片段进行稀疏采样,得到α组帧流图像序列和光流图像序列;
(4-5).将稀疏采样得到的α组帧流图像序列和光流图像序列分别输入至稀疏采样视频动作识别模型内的A3和A4,对应输出α×(C+1)维矩阵: 和 其中C+1表示包含背景的动作类别数目,片段对应输出C+1维向量;
RR=Average(Mean(RR3),Mean(RR4));
其中Average(·,·)取多个向量对应元素的平均值,Mean(·)取二维矩阵每一列的平均值,RR表示片段属于各个动作类别的概率,对于每一个片段记录其RR中概率最大的类别作为其动作识别结果c';
(4-6).对于动作识别结果c',若一个片段识别结果为非背景类,则结合(4-3)记录的片段开始帧和结束帧,将其加入最终结果Result中;
(4-7).对于新视频V',最终的时序动作定位结果表示为 其中M表示定位得到的动作片段总数,对于第j个片段,s'j表示该片段在视频中的开始帧,e'j表示该片段在视频中的结束帧,c'j表示该片段的动作识别结果。