欢迎来到利索能及~ 联系电话:18621327849
利索能及
我要发布
收藏
专利号: 2019106146870
申请人: 淮阴工学院
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-10-29
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于融合特征的人体动作分类方法,其特征在于,包括以下步骤:(1)输入多个带标签的人体动作视频,将各动作视频转换成帧序列;

(2)使用预训练的沙漏人体姿势估计模型预测各帧的人体关节点3D坐标,得到关节点

3D坐标数据集;具体方法为:

(201)定义循环变量i1,用于遍历帧序列集合AF,i1∈[1,len(AF)],i1赋初值为1;

(202)遍历AF,如果i1≤len(AF),跳转到步骤(203),否则结束遍历AF,跳转到步骤(208)输出人体关节点坐标集合;

(203)定义循环变量i2,用于遍历acframei1,i2∈[1,len(acframei1)],i2赋初值为1,acframei1表示AF中第i1组帧序列;

(204)遍历acframei1,如果i2≤len(acframei1),跳转到步骤(205),否则结束遍历acframei1,跳转到步骤(207)继续循环操作;

(205)使用预训练的沙漏人体姿势估计模型预测Imgi2中人体16个关节点对应的3D坐标集Sframe={f1,f2,…,f16},其中,Imgi2表示acframei1中第i2帧,fk=(xk,yk,zk),xk、yk、zk分别表示第k个关节点对应的横坐标、纵坐标、垂直坐标,满足k∈[1,16];

(206)令i2=i2+1,跳转到步骤(204);

(207)令i1=i1+1,跳转到步骤(202);

(208)得到人体关节点坐标集合Skeleton,满足Skeleton={Saction1,Saction2,…,SactionM},其中,SactionM表示第M组帧序列对应的人体关节点3D坐标集合;

(3)将人体关节点坐标投影至三维平面;具体方法为:(301)定义循环变量i3,用于遍历Skeleton,i3∈[1,len(Skeleton)],i3赋初值为1;

(302)遍历Skeleton,如果i3≤len(Skeleton)则跳转到步骤(303),否则结束遍历Skeleton,跳转到步骤(311)输出三维坐标集合;

(303)定义循环变量i4用于遍历Sactioni3,Sactioni3表示Skeleton中第i3组人体关节点坐标集合,i4∈[1,len(Sactioni3)],i4赋值为1;

(304)遍历Sactioni3,如果i4≤len(Sactioni3)则跳转到步骤(305),否则结束遍历Sactioni3,跳转到步骤(306)继续循环操作;

(305)定义循环变量i5用于遍历Sframei4,Sframei4表示Sactioni3中的第i4帧,i5∈[1,len(Sframei4)],i5赋值为1;

(306)令i3=i3+1,跳转到步骤(302);

(307)遍历Sframei4,如果i5≤len(Sframei4)则跳转到步骤(308),否则结束遍历Sframei4,跳转到步骤(310)继续循环操作;

(308)将帧Sframei4中第i5个坐标点fi5分别向xy平面、xz平面、yz平面投影,得到投影后的2维向量XY、XZ、YZ,满足fi5=(xi5,yi5,zi5),xi5、yi5、zi5分别表示第i5个坐标点对应的横坐标、纵坐标、垂直坐标,具体公式如下:

其中,(ax,ay)表示fi5向xy轴投影后的坐标,(bx,bz)表示fi5向xz轴投影后的坐标,(cy,cz)表示fi5向yz轴投影后的坐标;

(309)令i5=i5+1,跳转到步骤(307);

(310)令i4=i4+1,跳转到步骤(304);

(311)得到所有关节点坐标投影后的数据集合Trans1、Trans2、Trans3,Trans1={id2,label,id3,id4,XY},Trans2={id2,label,id3,id4,XZ},Trans3={id2,label,id3,id4,YZ},其中id2、label、id3和id4分别表示动作序号、动作标签、帧序号、关节点序号;

(312)得到Skeleton投影后的数据集合Trans1、Trans2、Trans3,满足len(Trans1)=len(Trans2)=len(Trans3);

(4)使用长短期记忆网络、门控循环单元两种模型分别对投影后的数据进行特征提取,将提取的两组特征向量进行融合;

(5)基于融合后的特征训练人体动作视频分类模型,将视频数据输入训练好的人体动作视频分类模型,得到人体动作视频分类结果。

2.根据权利要求1所述的基于融合特征的人体动作分类方法,其特征在于,所述步骤(1)的具体方法为:

(101)输入人体动作视频训练集AC,测试集Ttest,定义函数len(X)表示集合X的长度,满足len(AC):len(Ttest)=1:1;

(102)定义id、label、fnum分别为单个带标签的动作视频action的序号、标签、帧数,满足action={id,label,fnum},令AC={action1,action2,...,actionM},其中,actionM表示AC中第M个视频,全局变量M∈[1,len(AC)];

(103)定义循环变量i0用于遍历AC,i0∈[1,len(AC)],i0赋初值为1;

(104)遍历AC,如果i0≤len(AC),跳转到步骤(105),否则结束遍历AC,跳转到步骤(107),输出遍历得到的帧序列集合;

(105)将视频actioni0转换为帧序列acframei0,其中,actioni0表示集合AC中第i0个子集,满足acframei0={Img1,Img2,…,ImgN},Imgn表示acframei0中序号为n的帧,n∈[1,len(acframei0)];

(106)令i0=i0+1,跳转到步骤(104);

(107)得到帧序列集合AF={acframe1,acframe2,…,acframeM},其中,acframeM表示AF中第M组帧序列。

3.根据权利要求1所述的基于融合特征的人体动作分类方法,其特征在于,所述步骤(4)的具体方法为:

(401)定义SA、SB、SC分别表示Trans1、Trans2、Trans3中相同标签序号的样本,满足SA∈Trans1,SB∈Trans2,SC∈Trans3,同时跳转到步骤(402)、步骤(403);

(402)通过GRU分别提取SA、SB、SC的特征向量G1、G2、G3;

(403)通过LSTM分别提取SA、SB、SC的特征向量L1、L2、L3;

(404)通过1D卷积将G1、G2、G3转换为特征向量D1、D2、D3,将L1、L2、L3转换为特征向量D4、D5、D6具体公式如下:

其中,h(k)表示一维卷积核,u(k)表示输入的特征向量,y(k)表示输出的特征向量;

(405)将特征向量D1、D2、D3、D4、D5、D6相加融合得到特征向量D7,具体公式如下:D7=D1+D2+D3+D4+D5+D6;

4.根据权利要求1所述的基于融合特征的人体动作分类方法,其特征在于,所述步骤(5)的具体方法为:

(501)定义循环变量i6,用于分别遍历Trans1、Trans2、Trans3,i6∈[1,len(Trans1)],i6赋初值为1,已知len(Trans1)=len(Trans2)=len(Trans3);

(502)分别遍历Trans1、Trans2、Trans3,如果i6≤len(Trans1),跳转到步骤(503),否则结束遍历操作,跳转到步骤(507)得到训练好的模型;

(503)得到Trans1、Trans2、Trans3中标签序号为i6的样本Sample1、Sample2、Sample3;

(504)根据步骤(4)所述的方法处理Sample1、Sample2、Sample3,得到特征向量D7i6;

(505)将D7i6输入隐藏状态层Hidden进行训练,得到隐藏状态向量h;

具体公式如下:

(hh) (hx)

ht=σ(W ht‑1+W x[t]);

其中,ht表示t时刻的隐藏层状态,ht‑1表示t‑1时刻的隐藏层状态,x[t]表示t时刻输入的(hx) (hh)

特征向量,W 、W 分别表示隐藏层输入、输出权重矩阵;

(506)i6=i6+1,跳转到步骤(502);

(507)得到训练好的模型Model;

(508)将人体动作视频测试集Ttest输入Model,对输出隐藏状态向量h应用Softmax运算后得到各标签预测结果TRP,TRP={plabel,rlabel},其中,plabel、rlabel分别表示预测类别标签、实际类别标签,具体公式如下:(S)

yt=softmax(W ht);

(S)

其中,yt表示t时刻Softmax的输出结果,ht表示t时刻输入的隐藏状态向量,W 表示Softmax输出权重矩阵。