利索能及
我要发布
收藏
专利号: 201911314448X
申请人: 北京海国华创云科技有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于视频的多目标连续行为分析方法,其特征在于,包括以下步骤:

步骤S100,获取输入视频各视频帧中的目标和目标区域,分别对各目标区域进行关键点提取,基于各视频帧中对应目标区域所提取的关键点构建运动模型,以该模型作为全局特征;

步骤S200,采用基于注意力机制的特征热图,分别提取各视频帧中各目标区域的局部特征;

所述S200包括:步骤S201,基于各视频帧中各目标区域提取的关键点,采用基于注意力机制的特征热图方法获取各目标区域对应的特征热图;

步骤S202,通过gabor滤波器、离散小波变换对所述关键点及特征热图进行处理,得到各目标区域的局部特征;具体包括:通过gabor滤波器分别在时间维度和空间维度对所述关键点及特征热图进行滤波,获取多个兴趣点;基于各兴趣点的每一维低通和高通的滤波响应,通过离散小波变换得到多个时空显著点,作为各目标区域的局部特征;

步骤S300,基于所述全局特征、所述局部特征,通过stacking集成学习方法进行融合,得到融合特征;

步骤S400,将所述输入视频的各视频帧、所述融合特征通过分类器进行动作序列分类,得到多组动作分类的结果;分类器为基于卷积深度神经网络模型构建,包括第一神经网络、第二神经网络、分类融合网络,两个神经网络相对独立;

所述第一神经网络用于对所述输入视频进行分类,输出第一分类值;

所述第二神经网络用于对所述融合特征进行分类,输出第二分类值;

所述分类融合网络用于对第一分类值、第二分类值进行融合,将二者合并为一个向量,作为网络输入,得到最终分类输出即动作分类的结果;

步骤S500,基于多组动作分类的结果,通过描述器生成每个目标的动作对应的描述性语句;

所述描述器基于LSTM神经网络构建,用于根据分类器的分类结果获取对应的描述性语句。

2.根据权利要求1所述的基于视频的多目标连续行为分析方法,其特征在于,步骤S100中“获取输入视频各视频帧中的目标和目标区域”,其方法为:通过multi‑stage目标检测方法进行目标识别和定位,获取目标和目标区域。

3.根据权利要求1所述的基于视频的多目标连续行为分析方法,其特征在于,步骤S400中所述分类器为基于卷积深度神经网络模型构建,包括第一神经网络、第二神经网络、分类融合网络,两个神经网络相对独立;

所述第一神经网络用于对所述输入视频进行分类,输出第一分类值;

所述第二神经网络用于对所述融合特征进行分类,输出第二分类值;

所述分类融合网络用于对第一分类值、第二分类值进行融合,得到最终分类输出。

4.根据权利要求1所述的基于视频的多目标连续行为分析方法,其特征在于,步骤S500中“通过描述器生成每个目标的动作对应的描述性语句”,其方法为:将多组动作分类的结果编码成词向量,通过所述描述器生成每个目标的动作对应的描述性语句。

5.一种基于视频的多目标连续行为分析系统,其特征在于,包括全局特征提取模块、局部特征提取模块、特征融合模块、行为分类模块、生成描述模块;

所述全局特征提取模块,配置为获取输入视频各视频帧中的目标和目标区域,分别对各目标区域进行关键点提取,基于各视频帧中对应目标区域所提取的关键点构建运动模型,以该模型作为全局特征;

所述局部特征提取模块,配置为采用基于注意力机制的特征热图,分别提取各视频帧中各目标区域的局部特征;具体包括:基于各视频帧中各目标区域提取的关键点,采用基于注意力机制的特征热图方法获取各目标区域对应的特征热图;通过gabor滤波器、离散小波变换对所述关键点及特征热图进行处理,得到各目标区域的局部特征;具体包括:通过gabor滤波器分别在时间维度和空间维度对所述关键点及特征热图进行滤波,获取多个兴趣点;基于各兴趣点的每一维低通和高通的滤波响应,通过离散小波变换得到多个时空显著点,作为各目标区域的局部特征;

所述特征融合模块,配置为基于所述全局特征、所述局部特征,通过stacking集成学习方法进行融合,得到融合特征;

所述行为分类模块,配置为将所述输入视频的各视频帧、所述融合特征通过分类器进行动作序列分类,得到多组动作分类的结果;分类器为基于卷积深度神经网络模型构建,包括第一神经网络、第二神经网络、分类融合网络,两个神经网络相对独立;

所述第一神经网络用于对所述输入视频进行分类,输出第一分类值;

所述第二神经网络用于对所述融合特征进行分类,输出第二分类值;

所述分类融合网络用于对第一分类值、第二分类值进行融合,将二者合并为一个向量,作为网络输入,得到最终分类输出即动作分类的结果;

所述生成描述模块,配置为基于多组动作分类的结果,通过描述器生成每个目标的动作对应的描述性语句;

所述描述器基于LSTM神经网络构建,用于根据分类器的分类结果获取对应的描述性语句。

6.一种存储装置,其中存储有多条程序,其特征在于,所述程序适于由处理器加载并执行以实现权利要求1‑4任一项所述的基于视频的多目标连续行为分析方法。

7.一种处理装置,包括处理器、存储装置;处理器,适于执行各条程序;存储装置,适于存储多条程序;其特征在于,所述程序适于由处理器加载并执行以实现权利要求1‑4任一项所述的基于视频的多目标连续行为分析方法。