买专利、卖专利、专利购买、专利交易、专利出售、高企申报-基于改进的YOLO模型的视障人士辅助障碍物感知方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

基于改进的YOLO模型的视障人士辅助障碍物感知方法

￥13200

专利号： 2021100989837

申请人：杭州易享优智能科技有限公司

专利类型：发明专利

专利状态：已下证

更新日期：2026-06-24

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于改进的YOLO模型的视障人士辅助障碍物感知方法,其特征在于，包括以下步骤：

步骤一：建立YOLOV3算法框架

采用Darknet‑YOLOv3为框架，YOLOV3算法基于GoogleNet的卷积神经网络，采用Darknet‑53作为特征提取主干网络；YOLOV3算法为全卷积网络，其在Darknet‑53结构中多次采用跳层残差模块，并利用卷积的步长移动实现下采样操作，避免直接使用池化运算而导致梯度爆炸的现象，并且YOLOV3算法运用特征金字塔网络FPN中的特征图上采样思想进行特征融合，从而提高对小目标检测的精度；

YOLOV3算法在进行目标检测时，先通过特征提取网络Darknet‑53对输入图像进行特征提取，得到不同尺度的3个特征图层，每个特征图层中每个cell对应原图中一个小方块，假设被检测物体的中心坐标位于哪个小方块，则该方块就用来预测物体；

步骤二：数据增广处理

在数据读取层与特征提取层之间增加数据增广层，不仅包括对数据采用旋转、拉伸进行几何变换方式增广数据外，还融合了MSRCR算法进行数据增强，使系统适应光照条件较差的检测任务，以提高模型框架的泛化性；

步骤三：预训练

采用预训练再微调的方式重新训练分类器，使网络适应不同光照环境下的检测任务，采用在VOC2007和VOC2012混合的数据集上进行预训练，再融合自制的数据集，在不同光照环境的障碍物数据上微调模型；

步骤四：多尺度训练

采用多尺度训练的方式，随机调整输入数据的尺寸，增强模型的健壮性，将训练数据输入网络，经图像预处理后，分别使用32、64个3*3大小的卷积核进行滤波，执行下采样处理，得到240*240大小的特征图，然后在卷积单元中交替插入1*1、3*3大小卷积核组成的残差块，由5组残差块分别计算出分辨率为240*240、120*120、60*60、30*30、15*15的特征图；所有的卷积单元由卷积层、BN层、池化层组成，以便加快模型收敛，降低模型参数；

步骤五：改进YOLOv3的网络结构在主干网络中添加卷积层，在保证效率的同时提升精度，以增加在使用场景的实用性和准确性；

步骤六：基于TensorRT进行推理加速采用低精度参数的方式来进行相关计算和加速模型推理，采用TensorRT降低检测模型的推理时长；

步骤七：添加注意力机制模块

在尺度为26*26输出部分添加了加了一个注意力机制模块，对信息进行refine，从而优化学习到的内容，并且加强了对于小目标的检测能力，添加4层卷积层qie融入注意力机制模块后的网络为SE‑YOLOv3；

步骤八：利用GIOU Loss作为目标框坐标回归的损失度量标准c

GIOU Loss为距离度量标准，其值的计算如下所示，其中A 为两目标框的最小闭包区域面积，U为两目标框的相交面积

GIOU Loss的计算如下所示：LGIOU＝1‑GIOU

Soft‑NMS以一个权重的形式，来获得IOU取高斯指数后乘上原得分，之后重新排序，继续循环；在Darknet‑YOLOv3中，骨干网络共有31个卷积层，该网络结构包含1×，2×残差块的6组网络，相对于原YOLOv3中1×，2×，8×，8×，4×残差块的5组网络，参数数量减少

60％，运算复杂度下降，实现检测速度的提升；特征交互层分为四个尺度，每个尺度内通过上采样方式实现特征交互，四个尺度尺寸为y1：(13×13)，y2：(26×26)，y3：(52×52),y4：(104×104)；

步骤九：模型训练

首先所需类别对图像进行标注，在data/predefined_classes.txt中预先设置所有标注类别，将标记框调整至贴合目标边沿，完成标记后，在data/Annotations中保存xml，每个xml与图像一一对应，其中包含图片名字、所在路径、标注框的像素位置和标注类别；

然后训练策略及参数配置，通过融入MSRCR算法重新编译的Darknet框架预训练得到barrier.weights文件，该文件以序列的方式保存了整个卷积神经网络的权重，使用./darknetpartial命令将其转换成只含卷积层权重的预训练文件barrier.conv.74，然后固定网络的53个卷积层，针对最后的分类层进行微调，观察LOG的参数变化，训练至模型loss不再收敛为止，微调训练的超参数在Darknet的cfg文件中配置。

2.根据权利要求1所述的基于改进的YOLO模型的视障人士辅助障碍物感知方法，其特征在于，在步骤一中，每个方块对应9个预测框，在这几个预测框中只有和被检测物体的IOU最大的边界框才被用来预测物体。

3.根据权利要求1所述的基于改进的YOLO模型的视障人士辅助障碍物感知方法，其特征在于，在步骤二中，所述数据增强采用MSRCR算法来增强并修复噪声图像，具体为包括有分析并消除图像中的背景光源信号，通过去除图像中的光照信息增强图像，使色彩更贴合实际，以便于后续对有效信息进行提取及分析，所述MSRCR算法公式为：其中Ii(x，y)表示在空间(x，y)中第i个光谱带的图像信息，“*”表示卷积运算，Fn(x，y)是以高斯函数实现的环绕函数，G和b分别是最终的增益和偏移量，这两个值为经验参数；Ci(x，y)是色度空间中第i个通道的颜色恢复函数(CRF)，用公式表示为：其中β为控制颜色修复的增益，α为控制颜色修复的非线性增益，S表示图片的通道数。

4.根据权利要求3所述的基于改进的YOLO模型的视障人士辅助障碍物感知方法，其特征在于，所述MSRCR算法的具体步骤如下：步骤一：梳理Darknet源码，熟悉框架中数据的加载与处理流程；

步骤二：在darknet/src/image_opencv.cpp基础上进行修改，使用OpenCV编写MSRCR算法程序，并在源码的load_image_cv函数中调用编写的msrcr.MultiScaleRetinexCR函数进行图像增强处理；

步骤三：处理完的图像使用mat_to_image由mat格式转换为image结构体；

步骤四：将编写的msrcr.h和image_opencv.cpp加入darknet/src/中，编译源码。

5.根据权利要求1所述的基于改进的YOLO模型的视障人士辅助障碍物感知方法，其特征在于，在步骤三中，预训练的具体步骤如下：步骤一：首先在VOC2007和VOC2012混合的数据集上对改进的障碍物识别网络进行预训练，初始学习率为0.01，迭代16万次，得到barrier.conv.74预训练网络权值；

步骤二：将最后一个卷积层的滤波器个数设置为84，三个yolo层中类别数量设置为23，固定预训练模型中卷积层的权重参数，然后在自制的标注障碍物数据集上进行微调，更新权重，重新训练适合障碍物识别的检测模型。