1.一种基于改进的YOLOV8算法的姿态估计方法,其特征在于,具体步骤如下:步骤1、采用SimDLKA模块,将含有注意力机制的DLKA模块的流程进行化简,并且保持DLKA模块原有的性能;将DLKA模块卷积层与归一化层进行合并,简化DLKA模块的结构;
步骤2、将提高检测精度的SimDLKA模块代替YOLOv8网络结构原有的Bottleneck模块,接着将SimDLKA模块与C2F模块进行融合形成C2F‑SimDLKA模块,嵌入并替换YOLOv8网络架构原有的C2F模块;
步骤3、修改原有的损失函数,将CIOU损失函数修改为DCIOU损失函数;
步骤4、自主构建大规模的姿态估计数据集HP,采用多种数据增强策略,并采用开源的COCO数据集和MPII数据集用于模型训练。
2.根据权利要求1所述的一种基于改进的YOLOV8算法的姿态估计方法,其特征在于,在步骤1中,具体包括以下步骤:步骤1.1、对于一个batch批次的数据,其卷积层与归一化层合并步骤如下:2
xi是第i个输入; 是第i个输出;γ是缩放系数;β是平移系数;μ是输入批次的均值;σ是输入批次的方差;∈是一个极小量,避免分母为0;
而对于C张特征图F而言,归一化的过程写成如下:
是第C个高为i宽为j的输出特征图;FC,i,j是第c个高为i宽为j的输入特征图;
将归一化结果直接集成到卷积操作中,方程如下:
其中, 是卷积时的权重参数; 是归一化时的偏置;
是归一化时的权重参数; 是卷积时的偏置;con1×1是大小为
1×1的卷积核;Cpre是输入层的通道数;k是卷积核的大小;
将方程拆解开,得到更新后的权重参数W和偏置b:
W=Wconv1×1·WBN
b=Wconv1×1·bBN+bconv1×1
将上述方程归一化层和卷积层进行合并,将上述流程称为BN‑Conv操作;
步骤1.2、将前一层的特征图用5x5尺寸的可变形深度卷积进行计算,其能自适应地调整卷积核的形状以适应输入特征的空间变换,从而更好地捕捉不规则形状的对象或特征;
卷积操作被分成多个通道组进行,每组的大小由前一层输入的特征图维数确定;将计算的特征图用7x7尺寸的可变形深度卷积进行计算,分组卷积的组数同样等于维数,卷积的扩张率设置为3,其扩大了卷积核的感受野,而不增加参数量;接着将前一层的特征图用1x1尺寸的卷积核进行计算,并将输出的结果与最开始输入的特征图进行残差网络ResNet中的特征拼接,旨在整合多尺度的特征,改进信息流,避免在深层网络中信息的丢失;将上述流程称为DLKA模块;
步骤1.3、将前一层的特征图分成相同的两份,一份进行BN‑Conv操作,再进行GELU激活操作,对结果进行DLKA模块的流程,再用1x1尺寸的卷积核进行计算;将另一份特征图与此结果进行特征拼接;同样的,将此结果分成相同的两份,一份进行BN‑Conv操作,利用3x3,膨胀率为3空洞卷积进行卷积,将结果进行GELU激活操作,再用1x1尺寸的卷积核进行计算;将结果与原来的特征图进行特征拼接;将上述流程称为SimDLKA模块;
步骤1.4、将前一层的特征图用卷积核大小为1x1,步幅为1,填充为0,输出通道数为c_out的卷积模块进行卷积计算;将结果分成相同的两份,一份的特征图不做处理;另一份经过Split操作之后通道数变为原来的一半,将结果分成相同的两份,一份的特征图不做处理;另外一份则是传入到SimDLKA模块中做特征融合操作;接着将结果分成相同的两份,一份的特征图不做处理;另外一份接着传入到SimDLKA模块中做特征融合操作;接着的操作与上述相同;其中每个SimDLKA模块又会分出两条通道,一条是将处理过的特征传递给下一个SimDLKA模块,一条则是保留下来用作后面的拼接;最后经过n个SimDLKA模块之后将所有未处理的特征图进行拼接;最后将结果用卷积核大小为1x1,步幅为1,填充为0,输出通道数为c_out的卷积模块进行卷积计算;将上述流程称为C2F‑SimDLKA模块。
3.根据权利要求1所述的一种基于改进的YOLOV8算法的姿态估计方法,其特征在于,在步骤3中,具体包括以下步骤:步骤3.1、原有的基于姿态估计检验的YOLO‑pose采用的是CIOU损失函数,CIOU损失函数,具体如下:其中,wgt、hgt和w、h分别是目标框和预测框的宽度和高度;a是一个权重系数,用于平衡长宽比一致性的重要性;v是一个衡量边界框长宽比差异的项;
步骤3.2、采用新的损失函数DCIOU,该函数保留了CIOU损失函数的优点,同时也规避了CIOU损失函数退化的缺点,定义如下:其中,∈是一个极小量,DCIOU损失函数的v值将继承原来v值能衡量边界框长宽比差异的优点。
4.根据权利要求1所述的一种基于改进的YOLOV8算法的姿态估计方法,其特征在于,在步骤4中,具体包括以下步骤:步骤4.1、HP数据集是自主构建的具有大量数据的人体姿态估计数据集,通过拍摄并收集超过5000张图像,覆盖不同年龄、性别、姿态和体型的个体,用以确保算法的广泛适应性和鲁棒性;
步骤4.2、上述图像涵盖各种生活场景,包括室内外环境、不同光照条件以及多样的活动状态;每个关键点的位置由专业人员进行手动标注,将每张图像都精确标注人体的20个关键点,确保标注的精确性;
步骤4.3、接着将HP数据集采用多种数据增强策略,采用随机旋转、缩放、翻转和颜色调整;HP训练集图像使用随机的旋转角度,使模型能够学习识别不同角度的对象,并对图像实施随机缩放去模拟对象在视觉场景中距离变化的效果;对于一些图像进行水平翻转改变这些图像的视觉表现,并且不失去其语义内容;对所有图像进行对比度、亮度和饱和度的调整,用以模拟不同光照条件下的视觉效果,增加模型对于光照变化的适应性。