利索能及
我要发布
收藏
专利号: 2023101455569
申请人: 燕山大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种多特征融合的人‑物交互动作识别方法,其特征在于:其包括如下步骤:

S1、从数据库中提取骨骼数据视频,对视频序列帧进行预处理,并采用基于深度学习的目标检测算法进行物体识别,获取物体识别结果;

S2、将骨骼数据和物体识别结果进行交叉融合,构建融合模型,其具体包括以下子步骤:

S21、进行交互帧与非交互帧判断,交互帧与非交互帧判断的具体方法为:定义Ehi,i∈[1,N]为第i帧中关键点的集合,Ehi的计算公式如下:Ehi={(xik,yik)|(xik,yik)∈Fhiand scoreik<τ},其中,τ为一个非常小的阈值,用于判断人体关节关键点提取的可靠性,若

则表示在第i帧中人与物体之间的存在交互,则将第i帧设置为交互帧,相反

则为非交互帧;

S22、定义骨骼数据视频中每一帧交互帧离某一手腕关节最近的对象为该交互帧中的交互对象,表示为Bi={(xio1,yio1,xio2,yio2,wi)},wi为交互对象的类型标签;如果所有交互帧中的交互对象相同,则认为该视频包含单任务HOI,否则,则认为该视频包含多任务HOI;

S23、进行网络融合并构建融合特征集:将原视频保存的序列帧放入集合,从起始帧开始提取出骨骼数据和物体识别结果,并将提取出的骨骼数据和物体识别结果对应的原视频帧的序列标号放入集合进行比对,集合中交集关键帧即骨骼数据和物体识别结果的融合部分,最后基于交集关节帧生成融合特征集,其具体包括以下子步骤:S231、将姿态估计网络和目标检测网络生成的特征集定义为,其中,Fhuman={Fh1,Fh2,…,Fhi},i∈[1,N]和Fobject={Fo1,Fo2,…,Foi},i∈[1,N]分别为第i帧中人体关节或物体的特征集合,假设在第i帧中检测到c个对象,其输出定义为Foi={Oi1,Oi2,…,Oic}和Oic={(xic,yic)|xic∈[xic1,xic2],yic∈[yic1,yic2]},Foi和Oic分别为左上角(xic1,yic1)和右下角(xic1,yic1)之间的第c个框;

S232、根据交互帧中的值,将具有相同对象类别的连续帧标记为标签从N1到N2的子视频,N1,N2∈[1,N],N1<N2,之后进行网络融合,得到人体关节与物体的交集其中,Hom为从N1到N2交互帧中提取到的子视频的特征集,表示网络融合后人体关节与物体的二维坐标组合;

S233、将交互帧中的关键点和线段分别重新定义为{Ki0,Ki1,…,Ki24,Ki25,Ki26},i∈[N1,N2]和{Li0,Li1,…,Li24,Li25},其中Kia=(xia,yia),i∈[0,24]表示25个关节点坐标,Ki24=(xio1,yio1)和Ki25=(xio2,yio2)分别为被检测到的目标框的角Bi,Li0,Li1,…,Li24为骨架向量,Li25为目标向量;

S234、从人体关节和物体关键帧中提取以下特征:

Hi={(Diab,Aiab)|Diab=|KiaKib|,Aiab=LiagLib,a=0,1L 24,b=0,1L 24,a≠b}Oi={(Diob,Aiob)|Diob=|KioKib|,Aiob=LiogLib,o=25,b=0,1L 24}其中,Hi,Oi表示空间维度中人体和物体的特征集,Diab为两个关节之间的距离;Aiab为两个骨架向量之间夹角的角度;

每两个关节点间的距离为:

之后在时空维度上定义一个矩阵积分特征:

a,b∈[0,24],c=25,j<i,j∈[N1,N2‑1]

其中,Dija为第i帧和第j帧交互帧中对应关键点之间的距离,表示为Dija=|Kja‑Kia|,a∈[0,26];

S235、选择交互帧并生成融合特征集,使交互帧的标签集Im={i1,i2,L,im},i1,i2,L,im∈[N1,N2]满足 其中, 为人和物体在时间维度上的移动距离,完成交互帧选择后,最终生成融合特征集

S3、基于步骤S2得到的从N1到N2交互帧中提取到的子视频的融合特征集HOm对其中的人体关节特征和物体特征进行特征融合得到融合特征;

S4、将融合特征通过多层学习分类方法对视频进行动作分类,将所述的人与物体间的特征向量和人体关节间的特征向量输入多层分类模型进行训练,并建立反馈通道,找到并输出最高层级分类器的分类结果,完成对骨骼数据视频的动作分类;

多层学习分类方法采用多层分类学习算法进行,多层分类学习算法为使用集成学习的方法将两层或多层分类器级联起来从而达到更高的分类准确率,具体过程为:S41、将融合特征输入到k折交叉熵验证的循环体中利用多层学习方法训练,不重复地将原训练集随机分为k份,挑选其中1份作为验证集,剩余k‑1份作为训练集用于模型训练,将训练数据分别放入第一层分类器中训练,进一步得到预测类别向量,然后将预测向量作为新特征与数据集提取的n维特征向量结合,将结合后的特征向量再次输入到第二层、第三层、...第k层分类器中训练,训练得到一个多层学习网络模型,将验证集输入该多层学习网络模型进行测试,将测试结果保存为模型的评估指标;

S42、重复步骤S41共k次,获得k次测试结果;

S43、计算k组测试结果的平均值作为评价性能指标,建立反馈通道,并通过投票法获得最终分类结果。

2.根据权利要求1所述的多特征融合的人‑物交互动作识别方法,其特征在于:步骤S43中建立反馈通道的具体方法为将所述的人体关节与物体间的特征向量和人体关节间的特征向量放入多层学习网络模型中进行多层训练,特征向量从第二层分类器开始,每层将会得到一个分类反馈结果,并将该分类反馈结果分别返回到上一层分类器和下一层分类器,直到某一层分类器的分类结果大于前后两层分类器的分类结果,则输出最高准确率对应的层级分类器的分类结果作为最终分类结果。

3.根据权利要求1所述的多特征融合的人‑物交互动作识别方法,其特征在于:步骤S2中在判断人体和物体的交互动作之前,首先需要判断人体和物体是否接触,即接触为1,不接触为0。

4.根据权利要求1所述的多特征融合的人‑物交互动作识别方法,其特征在于:步骤S1中,在原始视频上提取完骨骼数据,把输出视频保存成对应的序列帧,并把每一帧的关节点的2D坐标保存到本地。

5.根据权利要求1所述的多特征融合的人‑物交互动作识别方法,其特征在于:步骤S2中交集关键帧中的特征包括物体到人身体关节的距离、角度、距离和角度以及人体自身关节间的距离和角度。

6.根据权利要求5所述的多特征融合的人‑物交互动作识别方法,其特征在于:步骤S2中物体的边界框的左上和右下两个顶点分别为mp,mq,mp和mq空间坐标为:mp=(xio1,yio1),mq=(xio2,yio2)。

7.根据权利要求5所述的多特征融合的人‑物交互动作识别方法,其特征在于:步骤S3中人体关节特征和物体特征通过特征相加进行特征融合得到融合特征。