买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于改进YoloV5和Openpose的分心驾驶行为识别方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于改进YoloV5和Openpose的分心驾驶行为识别方法

￥16800

专利号： 2023100889382

申请人：辽宁科技大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-07-01

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于改进YoloV5和Openpose的分心驾驶行为识别方法，其特征在于，包括如下步骤：步骤一：图像预处理：通过成像设备捕捉图像，当图像输入后，对输入图像进行预处理操作，抑制图像中的噪声，改善图像清晰度，处理图像缺陷；

步骤二：改进YoloV5：为缓解目标尺寸剧烈变化带来的负面影响，在原始YoloV5的浅层网络上添加一个预测头，使得整个目标检测网络能够捕捉到更多的细节信息；同时对YoloV5的损失函数进行优化，所述优化使其能够更好的在互斥类别数据集上进行训练，提高模型的收敛效果；

步骤三：改进Openpose：在MobileNet网络思想基础上，利用逐点卷积升维的工作原理，将其应用到轻量级Openpose的主干网络当中，解决深度可分离卷积在低维空间中信息丢失的问题，同时还在网络中引入CA结构的注意力机制，避免计算资源利用不充分问题；

步骤四：将步骤二改进的YoloV5与步骤三改进的Openpose相结合，设计一种新的二阶段行为识别网络方法，依照距离特征和角度特征作为识别结果的判断条件，使整个分心驾驶的识别过程，既能保证检测速度，又能在检测精确度的方面进一步提高；

所述步骤二中，为充分利用好Backbone在不同尺度上提取到的特征信息，让改进后的目标检测网络能够更好的适应多尺度小目标数据集，对YoloV5预测头改进，在浅层网络上添加一个P2预测头，在特征图每个像素点对应的感受野重叠区域较小时保证网络能够捕获到跟多的细节信息，使网络能更准确的检测到小尺寸目标，以缓解目标尺寸剧烈变化带来的负面影响，能够检测到数据集图像中香烟和电话的存在；

所述步骤二中，还对YoloV5的损失函数进行优化，使用概率和输出为1的Softmax函数对其进行优化，将所有标量转换成概率分布问题，不单纯的判断谁大谁小，使其更针对于对应的类别互斥数据集场景；

对于任意实数矢量长度为T，Softmax把它压缩在长度为T、取值在(0,1)区间的实数矢量，且矢量中各个元素之和为1，Softmax函数公式在数学上定义为：x

对于公式中的e ，当x较大时，在代码实现的过程中会出现内存溢出的情况；为了使Softmax在数值上更稳定，我们将各项指标的数值都处理在同一个数量级别上，首先将Softmax函数分子和分母同时乘以一个常数W，再使用log函数进行标准化，公式如下：其中，z为输出向量，zi和zt是其中的一个元素，分别表示z向量中第i个和第t个输出类别的值；将Softmax函数输出的向量与目标标签向量做乘积运算得到最终的结果，以这种方式对损失函数进行优化可以更好的适用在应用场景上，有效的提高整体模型的收敛效果；

所述步骤四中，针对吸烟和接打电话的行为，通过分析这两种行为动作的一致性，将步骤二改进的YoloV5与步骤三改进的Openpose相结合，设计出一种新的二阶段行为识别网络方法，包括如下：第一阶段：

首先，在吸烟和接打电话的过程中，目标物体与鼻子和耳朵之间的距离是最近的；其次，手肘都能形成一定的角度特征，并且这个角度小于90°；通过计算它们的距离特征和角度特征来判断这个人表现出了哪些行为；

因此，先通过YoloV5框架得到该目标物体在图像上的中心点位置M的坐标，表达式如下：M＝(xi,yi)

其中，xi代表中心点横坐标，yi代表中心点纵坐标；

第二阶段：

再使用改进后的轻量级Openpose框架，对人体姿态18个骨骼关键点的位置信息进行提取，通过骨骼关键点的热力图和点与点之间的对应关系来组成人体骨架；记录鼻子关键点位置坐标、右耳关键点位置坐标和左耳关键点位置N坐标，表达式如下：N＝(xj,yj)

其中，xj代表关键点横坐标，yj代表关键点纵坐标；

通过电话与左耳或右耳的欧几里得距离来判断图像中的人是否有接打电话的行为，同样通过香烟与鼻子的欧几里得距离来判断图像中的人是否有吸烟的行为；欧几里得距离d计算公式如下：通过对欧几里得距离的计算，当结果超过一定阈值时，即可判断这个人是否有吸烟或者接打电话的行为；完成距离特征的判断，其次还需要判断角度特征，当人发生吸烟或接打电话的行为时，手肘是成一定角度进行弯曲，我们通过计算手腕、手肘和肩膀之间的角度大小θ进行判断；通过姿态估计框架获得一侧手腕关键点位置A坐标、一侧手肘关键点位置B坐标和一侧肩膀关键点位置C坐标，分别记为公式：A＝(x4,y4)

B＝(x3,y3)

C＝(x2,y2)

根据三个点的坐标信息计算各个边的边长，分别为：

c＝|AB|

a＝|BC|

b＝|AC|

将上述边长a、b、c，通过余弦定理公式，计算手肘关节角度：

由于人与摄像头的距离能够影响两个关键点之间的距离，因此此处引入角度特征θ作为距离特征的约束。

2.根据权利要求1所述的一种基于改进YoloV5和Openpose的分心驾驶行为识别方法，其特征在于，所述步骤一中，使用高斯核与图像进行卷积求解的方式来抑制噪声信号。

3.根据权利要求1所述的一种基于改进YoloV5和Openpose的分心驾驶行为识别方法，其特征在于，所述步骤三中，为解决轻量级Openpose主干网络在低维空间中信息丢失的问题，在深度可分离卷积上进行改进；为使深度卷积能够在更高维度上提取到兴趣流形，在深度卷积之前使用一个1×1逐点卷积进行升维操作，这样使3×3深度卷积能在更高的维空间提取特征，效果更好；特征提取后再使用1×1逐点卷积降维恢复通道数，减少计算量；通过借鉴残差网络中ShortCut的结构，将输入特征与输出特征进行单位加操作，既能提高网络的传播能力，又能更有效地训练网络。

4.根据权利要求1所述的一种基于改进YoloV5和Openpose的分心驾驶行为识别方法，其特征在于，所述步骤三中，为降低姿态估计网络带来的高昂计算成本，还对Openpose进行如下改进：分别在Block4、Block5和Block6模块后面引入CA即CoordinateAttention结构的空间注意力机制；CA结构共有两个核心操作：坐标信息嵌入操作和坐标注意力生成操作。