买专利、卖专利、专利购买、专利交易、专利出售、高企申报-基于边缘增强的堤防裂缝险情智能识别方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

基于边缘增强的堤防裂缝险情智能识别方法

￥14000

专利号： 2024113473026

申请人：江西省水利科学院(江西省大坝安全管理中心、江西省水资源管理中心)

专利类型：发明专利

专利状态：已下证

更新日期：2025-10-14

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于边缘增强的堤防裂缝险情智能识别方法，其特征在于：包括改进和训练YOLOv8模型和堤防裂缝险情检测两个过程；

改进和训练YOLOv8模型的具体步骤如下：

步骤S11，数据采集：使用携带可见光传感器的无人机巡检堤防，获取得到堤防的可见光图像数据，包含有堤防裂缝险情可见光图像以及无堤防裂缝险情可见光图像；

步骤S12，制作样本：对步骤S11采集的可见光图像数据进行标注整理，制作成堤防裂缝险情样本；

步骤S13，改进和训练YOLOv8模型：改进后的YOLOv8模型由原始主干网络、边缘主干网络和检测模块组成，其中原始主干网络、边缘主干网络两个主干网络由CBS卷积模块、C2f模块、空间金字塔池化模块、边缘特征提取模块和特征增强融合模块组成；

堤防裂缝险情检测的具体步骤如下：

步骤S21，获取图像：获取待检测堤防的可见光图像数据，作为堤防裂缝险情检测过程的输入图像；

步骤S22，划分窗口：将堤防的可见光图像数据划分成具有20%重叠的窗口，以480像素为滑动步长，采用640*640像素大小的滑动窗口，遍历整个输入图像；将高度和宽度不足640像素的窗口，通过左上角坐标向上或向左移动，使高度和宽度不足640像素的窗口大小保持

640*640像素；

记录每一个窗口在输入图像中对应的编号和左上角坐标，记为（R，C，X，Y），其中R为行数，C表示列数，X，Y是对应的左上角坐标；

步骤S23，将每个窗口的可见光图像数据输入到步骤S13已经训练好的改进YOLOv8模型中；设置置信度阈值，得到超过置信度阈值的检测框的中心点位置、大小、类别及置信度；根据公式（1）计算检测框在输入图像中的真实位置；

（1）；

其中，（，）是第k个检测框中心点在输入图像中的位置；（，）是检测框所在当前窗口的左上角坐标，（，）是第k个检测框中心点在当前窗口图像中的位置；

步骤S24，检测结果非最大抑制：当所有窗口检测完成后，在输入图像上得到多个检测框，再利用加权非极大抑制剔除重叠检测框；

步骤S25，输出最终检测结果：将加权非极大抑制后的结果进行输出，得到最终检测结果。

2.根据权利要求1所述的一种基于边缘增强的堤防裂缝险情智能识别方法，其特征在于：步骤S12中，对步骤S11采集的可见光图像数据进行标注整理，制作成堤防裂缝险情样本；其中，堤防裂缝险情样本由正样本和负样本组成；具体为：步骤S121，对采集到的可见光图像数据进行标注，挑选特征明显的可见光图像数据，将难以识别或检查后的无效可见光图像数据剔除；

步骤S122，使用640*640的像素大小对挑选后的可见光图像数据进行分割，将分割完成的可见光图像数据使用软件Labelme标注出堤防裂缝险情特征，使用矩形框进行标注，以“裂缝”作为堤防裂缝险情标识，标注矩形框的可见光图像数据作为正样本，选取没有堤防裂缝险情特征的可见光图像数据作为负样本；

步骤S123，采用随机裁剪、翻转、模糊和改变亮度、对比度、随机排布扩增堤防裂缝险情样本，所有堤防裂缝险情样本统一缩放为640*640像素大小；

步骤S124，将统一缩放后的所有堤防裂缝险情样本按照8:2:1随机划分为训练集、验证集、测试集，使用K‑均值算法对训练集中标注为“裂缝”的矩形框进行聚类，优化生成矩形框的大小。

3.根据权利要求2所述的一种基于边缘增强的堤防裂缝险情智能识别方法，其特征在于：改进和训练YOLOv8模型，具体步骤为：步骤S131，YOLOv8模型的输入是经过线性归一化处理后的640*640像素大小的可见光图像数据；输入端分别连接原始主干网络与边缘主干网络；

步骤S132，原始主干网络中，输入端连接第一个CBS卷积模块、第二个CBS卷积模块和第一个C2f模块，第一个C2f模块连接第三个CBS卷积模块和第二个C2f模块得到特征图A1, 第二个C2f模块连接第四个CBS卷积模块和第三个C2f模块得到特征图A2, 第三个C2f模块连接第五个CBS卷积模块、第四个C2f模块和空间金字塔池化模块得到特征图A3；

步骤S133，边缘主干网络中，输入端连接边缘特征提取模块得到边缘信息图像，边缘特征提取模块连接第六个CBS卷积模块、第七个CBS卷积模块和第五个C2f模块，第五个C2f模块连接第八个CBS卷积模块和第六个C2f模块得到边缘特征图B1, 第六个C2f模块连接第九个CBS卷积模块和第七个C2f模块得到特征图B2；

步骤S134，特征图A1与特征图B1连接特征增强融合模块进行融合得到第一个特征图AB1, 特征图A2与特征图B2连接特征增强融合模块进行融合得到第二个特征图AB2；

步骤S135，空间金字塔池化模块连接第一个上采样模块，第一个上采样模块的输出与第二个特征图AB2连接，利用特征增强融合模块进行融合，形成特征图A4；

特征图A4连接第八个C2f模块得到特征图A5；

特征图A5连接第二个上采样模块，第二个上采样模块的输出和第一个特征图AB1利用特征增强融合模块进行融合，形成特征图A6；

特征图A6连接第九个C2f模块得到特征图A7；

特征图A7连接第十个CBS卷积模块，第十个CBS卷积模块的输出与特征图A5跨接，形成特征图A8；

特征图A8连接第十个C2f模块得到特征图A9；

特征图A9连接第十一个CBS卷积模块，第十一个CBS卷积模块的输出与特征图A3跨接，形成特征图A10；

特征图A10连接第十一个C2f模块得到特征图A11；

特征图A7、特征图A9、特征图A11分别连接检测模块，得到YOLOv8模型的输出。

4.根据权利要求3所述的一种基于边缘增强的堤防裂缝险情智能识别方法，其特征在于：C2f模块由CBS卷积模块、拆分模块和瓶颈块组成，C2f模块输入连接到CBS卷积模块，再连接拆分模块得到两个输出，将第一个输出连接n个瓶颈块得到n个输出，将n个输出与拆分模块得到的第二个输出进行拼接，将拼接结果与第二个CBS卷积模块进行连接得到C2f模块的输出。

5.根据权利要求4所述的一种基于边缘增强的堤防裂缝险情智能识别方法，其特征在于：空间金字塔池化模块包含两个CBS卷积模块、三个最大池化层；空间金字塔池化模块输入经过第一个CBS卷积模块，再连接三个最大池化层，最后将第一个CBS卷积模块的输出与三个最大池化层的输出进行跨接，跨接后再连接第二个CBS卷积模块得到空间金字塔池化模块的输出。

6.根据权利要求5所述的一种基于边缘增强的堤防裂缝险情智能识别方法，其特征在于：边缘特征提取模块将训练的样本利用高斯模糊进行预处理，得到高斯模糊图像I，再分别连接三个边缘检测算子，计算图像灰度函数的一阶离散差分值，提取高频边缘信息；三个边缘检测算子的卷积核分别是Sobel算子、Prewitt算子和Roberts算子，三个边缘检测算子的计算公式见公式（2）、公式（3）、公式（4）、公式（5）和公式（6）；

(2)；

(3)；

(4)；

(5)；

(6)；

其中，KSx和KSy分别是Sobel算子水平方向x和垂直方向y上的卷积核；KPx和KPy是Prewitt算子水平方向x和垂直方向y上的卷积核；KRx和KRy是Roberts算子水平方向x和垂直方向y上的卷积核； Gx表示水平梯度，Gy表示垂直梯度；I表示高斯模糊图像，表示卷积运算，Kx、Ky分别表示水平方向x和垂直方向y的卷积核；

利用公式（7）对水平方向梯度Gx和垂直方向梯度Gy进行组合得到高频边缘信息Gi；

(7)；

其中，Gi表示高频边缘信息图；

通过Sobel算子、Prewitt算子和Roberts算子获得三个不同的单通道的高频边缘信息图，分别是Sobel算子的单通道的高频边缘信息图GS，Prewitt算子的单通道的高频边缘信息图GP，Roberts算子的单通道的高频边缘信息图GR；将三组高频边缘信息图进行拼接，得到边缘主干网络的输入G，见公式（8）所示；

(8)；

G表示三个单通道的高频边缘信息图拼接成边缘主干网络的输入。

7.根据权利要求6所述的一种基于边缘增强的堤防裂缝险情智能识别方法，其特征在于：特征增强融合模块由坐标注意力模块、上下文建模模块组成；特征增强融合模块通过坐标注意力模块对相对低级特征图进行优化，利用相对高级特征图通过上下文建模模块获取不同通道的权重；利用获取不同通道的对相对低级特征图进行优化；具体为：将原始主干网络的相对低级特征图经过坐标注意力模块，将位置信息嵌入到坐标注意力模块中，得到优化后的低级特征图；

将边缘主干网络的相对高级特征图经过上下文建模模块，得到相对高级特征图中每个通道的权重，再将优化后的低级特征图与每个通道的权重进行逐元素相乘获得最终的优化的低级特征图；

将最终的优化的低级特征图与相对高级特征图进行拼接得到特征增强融合模块的输出；见公式（9）、公式（10）、公式（11）和公式（12）；

(9)；

(10)；

(11)；

(12)；

其中，相对低级特征图，相对高级特征图；C、H和W分别为通

道数、高度和宽度，为实数空间；为优化后的低级特征图，为相对低级特征图，为相对高级特征图中每个通道的权重，为相对高级特征图，为优化的低级特征图，为特征增强融合模块的输出；CA为坐标注意力模块，CM为上下文建模模块，concat为拼接操作。