利索能及
我要发布
收藏
专利号: 2020107223044
申请人: 杭州电子科技大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于边界搜索智能体的时序动作片段分割方法,其特征在于,该方法首先获取视频数据集合,然后进行如下操作:步骤(1).对视频采样处理获得视频帧图像序列,然后通过特征提取器获得视频帧单元编码序列;具体是:

(1‑1).对单个视频V,以每秒25帧的采样率处理为视频帧图像帧序列集合fi表示序列中第i幅宽为w高为h的RGB三通道图像,N为视频总帧数;

(1‑2) .将帧序列集合Vf划分成N/nu个连续不重叠的视频帧单元序列nu为一个单元包含的帧数, 为向下取整函数,j为视频帧单元的索引;

其中,视频V包含动作实例标记信息,标记信息记为 M表示不含背景片段视频动作实例数目,sm表示第m个动作片段动作开始单元索引,em表示第m个动作片段动作结束单元索引,cm表示第m个动作片段动作类别;

(1‑3).采用训练好的三维卷积神经网络作为特征提取器φ,视频帧单元序列经过特征提取器φ得到视频帧单元编码序列表示第j个帧单元的特征向量;

步骤(2).构建动作发现网络,输入为视频帧单元编码序列,输出为视频帧单元的类别预测向量序列,据此获得动作单元;具体是:(2‑1).输入视频帧单元编码序列U,通过多层全连接层构建动作发现网络;

(2‑2).根据视频动作实例的标记信息 得到视频帧单元编码序列U对应的单元类别标记序列 其中cj∈{0,1,2,…,K}表示第j个帧单元对应的动作类别,K为动作类别总数,背景类别记为cj=0;

(2‑3).采用Softmax层为输出层且交叉熵为损失函数,输出为视频帧单元的类别预测向量序列 其中 假定第j个帧单元对应动作类别k的输出概率为Softmax层的计算式为 表示Softmax层的输入,即未归一化的概率得分,e为自然底数,得到单元对应的类别概率归一化向量 利用随机梯度下降算法优化训练网络模型,并通过过反向传播方式更新模型参数;

将 第 j 个帧 单 元 的 真 实 类 别 标 记 为 c j ,则 其 交 叉 熵 损 失 函 数 为表示单元对应动作类别k的真实概率, 表示单元对应动作类别k的预测概率,由于仅 其余类别的真实概率为0,简化为 其中 为单元标记类别cj对应的预测概率;

j

根据单元对应的类别概率归一化向量y ,得到单元类别预测序列 其中第j个帧单元的预测类别标记 的帧单元记为动作单元的索引集合 其中xq为第q个动作单元索引,Nact为动作单元数量;

步骤(3).生成边界搜索智能体,输入为动作单元,输出为动作单元所属动作片段的时序边界;具体是:

(3‑1).根据动作实例标记信息 得到动作实例 获得其中 为实例动作单元索引, 为其对应的时序边界索引,为实例动作单元数量;

(3‑2).通过多层全连接层生成边界搜索智能体,具体包括记忆模块、执行网络和评判网络;其中,记忆模块用于记录历史行为,执行网络学习输出行为分别寻找动作单元对应的开始边界和结束边界,评判网络估计各行为的后续累积奖赏辅助执行网络;其中,记忆模块包含一个固定大小u+1的记忆及其对应的可学习权重向量 在某一时间步t,记录前u个时间步所观察的视频单元特征序列 和动作单元x0的特征序列 智能体在时间步t能够观察到的状态向量为 为记忆模块中的所有视频单元特征的堆叠;

执行网络中所有全连接层的权重参数和偏置参数统一表示为θa,智能体行为空间表示为 其中dbg为所有视频中背景持续时间的平均值,a为智能体行为;

智能体从动作单元x0出发,在某一时间步t,输入为状态向量Bt,输出当前时间步t的行为at;

当at=0时,智能体判定当前观察的视频单元是x0所属动作片段的时序边界,当at≠0时,智能体跳转至其他视频单元索引xt+1=xt+at;

评判网络中所有全连接层的权重参数和偏置参数统一表示为θv,在某一时间步t,输入为状态向量Bt,估计当前状态的后续累积奖赏期望值为其中rt表示时间步t行为的单步奖赏,n'为智能体与环境交互时每个回合的总步数,γ∈[0,1]为奖赏折扣系数,E[·]表示数学期望;

(3‑3).在训练中,仅对发现行为进行奖赏,在某一时间步t,其状态向量为Bt,智能体发现边界单元xt,假设初始动作单元索引为 和动作实例边界为 为开始边界单元索引, 为结束边界单元索引,则奖赏函数rhit为:其中,σ>0为基线奖赏值,Igt为初始动作单元 的动作实例边界邻域的单元索引正整数ε用于限定邻域范围大小, 为中心奖赏,常数k>0用于控制rcenter奖赏程度, 为边界单元索引, 为步数奖赏,n为发现该动作实例耗费的时间步数,nideal为发现一个动作实例耗费的理想步数,η>0为奖赏惩罚值,p<0为没有正确发现动作实例时的惩罚值;当智能体沿动作单元前向搜索开始边界时,和 当智能体沿动作单元后向搜索结束边界时,2

和 评判网络的损失函数Lcri=(rt+Ω(Bt;θv)‑Ω(Bt+1;θv)) 的更新目标是最小化损失函数Lc,使得网络能更准确估计某一状态后续的累积奖赏,并通过随机梯度下降方法更新网络参数θv;执行网络的损失函数为Lact=logπ(at|Bt;θa)A(Bt,at;θa,θv),π(at|Bt;θa)为智能体搜索策略,即智能体根据当前状态向量Bt执行行为at的概率,A(Bt,at;θa,θv)=rt+Ω(Bt;θv)‑Ω(Bt+1;θv)为优势函数,其更新目标是在状态Bt能获得最大累计奖赏的行为概率,在保持参数θv不变的同时通过随机梯度上升方法更新网络参数θa;

步骤(4).对新视频根据动作发现网络获得动作单元,通过边界搜索智能体获得动作片段的时序边界,然后进行去重处理,完成时序动作片段分割任务;具体是:(4‑1).对于新视频利用(1‑1)获得视频帧图像序列 通过(1‑2)和(1‑3)获得其帧单元编码序列

(4‑2).将帧单元编码序列U'输入至步骤(2)构建的动作发现网络中,得到动作单元索引集合 将动作单元索引集合X'的动作单元输入步骤(3)的边界搜索智能体中,则智能体输出各动作单元所属动作片段的时序边界 s'q和e'q分别表示第q个动作单元的开始时间和结束时间;

(4‑3).对于新视频V',得到初步的动作片段分割结果 通过(2‑

3)中视频单元对应的类别概率归一化向量 计算各个动作片段在所有动作类别上的得分序列 其中pq为第q个动作片段在各类别上的得分向量,分别根据cq=argmax(pq)和Oq=max(pq)得到第q个动作片段对应的类别和得分;

(4‑4).使用非极大值抑制算法进行去重处理,即剔除各动作片段之间的时序重叠度大于设定阈值τ的重复动作片段,仅保留动作得分更高的片段,最终从原始视频中分割获得Nfinal个动作片段 τ=0.2~0.4,集合元素的三个值分别对应动作的开始时间、结束时间、动作类别。