买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于改进的YOLOV8算法的姿态估计方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于改进的YOLOV8算法的姿态估计方法

￥31200

专利号： 2024106536016

申请人：南通大学

专利类型：发明专利

专利状态：已下证

更新日期：2025-11-13

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于改进的YOLOV8算法的姿态估计方法，其特征在于，具体步骤如下：步骤1、采用SimDLKA模块，将含有注意力机制的DLKA模块的流程进行化简，并且保持DLKA模块原有的性能；将DLKA模块卷积层与归一化层进行合并，简化DLKA模块的结构；

步骤2、将提高检测精度的SimDLKA模块代替YOLOv8网络结构原有的Bottleneck模块，接着将SimDLKA模块与C2F模块进行融合形成C2F‑SimDLKA模块，嵌入并替换YOLOv8网络架构原有的C2F模块；

步骤3、修改原有的损失函数，将CIOU损失函数修改为DCIOU损失函数；

步骤4、自主构建大规模的姿态估计数据集HP，采用多种数据增强策略，并采用开源的COCO数据集和MPII数据集用于模型训练。

2.根据权利要求1所述的一种基于改进的YOLOV8算法的姿态估计方法，其特征在于，在步骤1中，具体包括以下步骤：步骤1.1、对于一个batch批次的数据，其卷积层与归一化层合并步骤如下：2

xi是第i个输入；是第i个输出；γ是缩放系数；β是平移系数；μ是输入批次的均值；σ是输入批次的方差；∈是一个极小量，避免分母为0；

而对于C张特征图F而言，归一化的过程写成如下：

是第C个高为i宽为j的输出特征图；FC，i，j是第c个高为i宽为j的输入特征图；

将归一化结果直接集成到卷积操作中，方程如下：

其中，是卷积时的权重参数；是归一化时的偏置；

是归一化时的权重参数；是卷积时的偏置；con1×1是大小为

1×1的卷积核；Cpre是输入层的通道数；k是卷积核的大小；

将方程拆解开，得到更新后的权重参数W和偏置b：

W＝Wconv1×1·WBN

b＝Wconv1×1·bBN+bconv1×1

将上述方程归一化层和卷积层进行合并，将上述流程称为BN‑Conv操作；

步骤1.2、将前一层的特征图用5x5尺寸的可变形深度卷积进行计算，其能自适应地调整卷积核的形状以适应输入特征的空间变换，从而更好地捕捉不规则形状的对象或特征；

卷积操作被分成多个通道组进行，每组的大小由前一层输入的特征图维数确定；将计算的特征图用7x7尺寸的可变形深度卷积进行计算，分组卷积的组数同样等于维数，卷积的扩张率设置为3，其扩大了卷积核的感受野，而不增加参数量；接着将前一层的特征图用1x1尺寸的卷积核进行计算，并将输出的结果与最开始输入的特征图进行残差网络ResNet中的特征拼接，旨在整合多尺度的特征，改进信息流，避免在深层网络中信息的丢失；将上述流程称为DLKA模块；

步骤1.3、将前一层的特征图分成相同的两份，一份进行BN‑Conv操作，再进行GELU激活操作，对结果进行DLKA模块的流程，再用1x1尺寸的卷积核进行计算；将另一份特征图与此结果进行特征拼接；同样的，将此结果分成相同的两份，一份进行BN‑Conv操作，利用3x3，膨胀率为3空洞卷积进行卷积，将结果进行GELU激活操作，再用1x1尺寸的卷积核进行计算；将结果与原来的特征图进行特征拼接；将上述流程称为SimDLKA模块；

步骤1.4、将前一层的特征图用卷积核大小为1x1，步幅为1，填充为0，输出通道数为c_out的卷积模块进行卷积计算；将结果分成相同的两份，一份的特征图不做处理；另一份经过Split操作之后通道数变为原来的一半，将结果分成相同的两份，一份的特征图不做处理；另外一份则是传入到SimDLKA模块中做特征融合操作；接着将结果分成相同的两份，一份的特征图不做处理；另外一份接着传入到SimDLKA模块中做特征融合操作；接着的操作与上述相同；其中每个SimDLKA模块又会分出两条通道，一条是将处理过的特征传递给下一个SimDLKA模块，一条则是保留下来用作后面的拼接；最后经过n个SimDLKA模块之后将所有未处理的特征图进行拼接；最后将结果用卷积核大小为1x1，步幅为1，填充为0，输出通道数为c_out的卷积模块进行卷积计算；将上述流程称为C2F‑SimDLKA模块。

3.根据权利要求1所述的一种基于改进的YOLOV8算法的姿态估计方法，其特征在于，在步骤3中，具体包括以下步骤：步骤3.1、原有的基于姿态估计检验的YOLO‑pose采用的是CIOU损失函数，CIOU损失函数，具体如下：其中，wgt、hgt和w、h分别是目标框和预测框的宽度和高度；a是一个权重系数，用于平衡长宽比一致性的重要性；v是一个衡量边界框长宽比差异的项；

步骤3.2、采用新的损失函数DCIOU，该函数保留了CIOU损失函数的优点，同时也规避了CIOU损失函数退化的缺点，定义如下：其中，∈是一个极小量，DCIOU损失函数的v值将继承原来v值能衡量边界框长宽比差异的优点。

4.根据权利要求1所述的一种基于改进的YOLOV8算法的姿态估计方法，其特征在于，在步骤4中，具体包括以下步骤：步骤4.1、HP数据集是自主构建的具有大量数据的人体姿态估计数据集，通过拍摄并收集超过5000张图像，覆盖不同年龄、性别、姿态和体型的个体，用以确保算法的广泛适应性和鲁棒性；

步骤4.2、上述图像涵盖各种生活场景，包括室内外环境、不同光照条件以及多样的活动状态；每个关键点的位置由专业人员进行手动标注，将每张图像都精确标注人体的20个关键点，确保标注的精确性；

步骤4.3、接着将HP数据集采用多种数据增强策略，采用随机旋转、缩放、翻转和颜色调整；HP训练集图像使用随机的旋转角度，使模型能够学习识别不同角度的对象，并对图像实施随机缩放去模拟对象在视觉场景中距离变化的效果；对于一些图像进行水平翻转改变这些图像的视觉表现，并且不失去其语义内容；对所有图像进行对比度、亮度和饱和度的调整，用以模拟不同光照条件下的视觉效果，增加模型对于光照变化的适应性。