1.一种姿态引导的实例感知网络的驾驶员分心行为识别方法,其特征在于,包括以下步骤:(1)利用人体检测器检测到人体框,利用人体姿态估计获取具有辨识性的手部相关区域;
(2)将人体和手部区域的特征作为实例级别的特征,提出一种实例感知模块充分获取不同层级的上下文语义信息;
(3)利用手部相关特征构建双通道交互模块来对关键空间信息进行表征的同时,对视觉特征进行优化;
(4)组建成一个多分支的深度神经网络,最后将不同分支的结果进行融合;
所述步骤(1)实现过程如下:
利用姿态估计对手部关键点进行定位,通过借助手肘关键点和手腕关键点像素坐标,对其矢量方向进行延长二分之一得到手部关键点:式中XLwrist代表左手腕X坐标,YLwrist代表左手腕Y坐标,XLbow代表左肘X坐标,YLbow代表左肘Y坐标;XRwrist代表右手腕X坐标,YRwrist代表右手腕Y坐标,XRbow代表右肘X坐标,YRbow代表右肘Y坐标;XLhand代表左手X坐标,YLhand代表左手Y坐标;XRhand代表右手X坐标,YRhand代表右手Y坐标;
以手部坐标为中心确定手部区域范围,手部区域的偏移量Cet设定为人体关节点手腕至手肘的长度较长长度的那一个的二分之一:Cet=Max(length(CLwrist,CLbow),length(CRwrist,CRbow))/2其中,CLwrist代表左手腕的坐标,CLbow代表左手肘的坐标,CRwrist代表右手腕的坐标,CRbow代表右手肘的坐标,length()代表计算两点之间的距离,Max()代表计算序列集合中的最大值;
将左右手的坐标分别加上和减上偏移量Cet得到手部区域的左上角的坐标Htop和右下角的坐标Hbottom;
Htop=hand(x,y)‑Cet
Hbottom=hand(x,y)‑Cet
其中,hand(x,y)为手部坐标,Cet为偏移量,Htop,Hbottom则为手部区域左上角的坐标和右下角的坐标;人体区域由YOLOv5目标检测模型检测得到人体区域检测框xh;
所述步骤(2)实现过程如下:
利用感兴趣区域对手部区域和人体区域进行特征提取;具体运算是在ROI后加入一个残差块,之后进行全局平均池化得到视觉特征向量;对获取到的左右手特征图进行、拼接得到手部特征Finst:X+=GAP(Resl(RoI(F,xl)))
XR=GAP(Resr(RoI(F,xr)))
其中,F为图片经过主干网络ResNet50的特征图,Res{}为代表残差块,XL和XR为左右手的视觉特征,Finst为手部特征;
通过对xh的检测框的区域进行特征提取获得周围上下文信息XH;为获得感知系数矩阵,将Finst和XH都映射到相同维度的空间,通过向量点乘的方式计算特征间的自相关性,然后通过Softmax层获取相关度系数矩阵:XH=GAP(Resh(RoI(F,xh)))
其中,XH为当前实例特征的上下文信息,W{}代表映射矩阵, 代表哈达玛积运算,再将相关系数矩阵对应乘回上下文特征矩阵XH,得到融合了实例特征语义信息的全局特征:Human
其中,Fcantext为当前实例特征的全局特征,p 当前手部感知流分支的得分;
所述步骤(3)实现过程如下:
通过姿态关节点得到两个xl,xr手部区域框之后,将两个手部区域包含的最小区域作为一个注意力窗口,并将注意力窗口以外的像素移除;将两个手部区域框转换成一个双通道的二值图像;其中第一个通道除了左手部区域的值是0之外,其他区域的值全是1,而第二个通道除了右手区域的值是1之外,其他区域的值全是0,将二值图重塑为64*64像素的大小并进行相应的补零操作,生成一个能够输入到深度神经网络中的双通道的二值空间配置图Bh,之后将Bh送入深度神经网络中获得空间特征:其中,ah为空间特征向量,代表了两只手的空间配置信息;二值空间配置图的Bh将两只手的区域定义在不同通道,利用深度神经网络去学习两只手的空间关系,ah在辅助进行预测的同时,利用空间特征对视觉特征进行优化:其中, 是优化过的特征,将优化过的特征和空间特征结合得出最后的空间流的得Spa分;p 是长度为N的空间流各动作类概率得分,σ为激活函数;
所述步骤(4)通过以下公式实现:
Spa Hand Human
p=p +p +p
Spa
其中,p为模型最后的预测结果,长度为目标分类数,p 是长度为N的空间流各动作类Human Hand概率得分,p 为当前人体感知流分支的得分,p 为手部感知流分支的得分。