利索能及
我要发布
收藏
专利号: 2024109108195
申请人: 临沂大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-04-09
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种水下鱼类图像识别检测方法,其特征在于:该方法包括以下步骤:

S1、获取水下鱼类公开数据集DeepFish,按照7:2:1的比例划分为训练集、验证集、测试集;

S2、选用rt‑detr模型作为主干网络,并引入三重注意力模块对rt‑detr模型中最后两个残差模块进行改进;

S3、使用结合门控机制的并行上采样分支结构改进原始rt‑detr模型颈部网络的第一个上采样结构,使用结合门控机制的并行下采样分支结构改进原始rt‑detr模型颈部网络的第二个上采样结构;

S4、采用结合不同扩张率的并行膨胀卷积结构和原始卷积相结合的结构对原始rt‑detr模型颈部网络的RepC3结构进行改进;

S5、将步骤S4中改进完成的rt‑detr模型采用步骤S1中的训练集进行训练,得到水下鱼类图像识别检测模型;

S6、利用步骤S5获得的水下鱼类图像识别检测模型在验证集上进行测试,并根据测试结果调整水下鱼类图像识别检测模型;

S7、将步骤S6调整完成后的水下鱼类图像识别检测模型采用测试集进行测试;

S8、在检测设备中部署步骤S7中测试完成的水下鱼类图像识别检测模型,并通过水下图像采集设备采集水下鱼类图像;

S9、将水下采集图像采集设备锁采集的水下鱼类图像导入水下鱼类图像识别检测模型,水下鱼类图像识别检测模型输出识别结果,并通过检测设备中的显示装置或声音装置输出检测结果。

2.根据权利要求1所述的水下鱼类图像识别检测方法,其特征在于:所述步骤S2中所述的三重注意力模块,采用三个不同的分支对输入特征从不同维度进行处理,然后通过交叉信息融合提升网络性能。

3.根据权利要求2所述的水下鱼类图像识别检测方法,其特征在于:所述三重注意力模块包括纵向注意力模块、深度注意力模块、横向注意力模块,对于通道数c、特征图宽度w、特征图高度h构成的c×w×h的输入特征图,处理过程如下:S21、纵向注意力模块将输入特征图在宽度维度上进行变换,变换后的特征图维度变为w×h×c,使用一个1×1卷积神经网络计算纵向注意力权重,将计算出的权重图与原始输入特征图逐元素相乘,输出重构后的输入特征图维度c×w×h;

S22、深度注意力模块保持输入特征图的原始维度c×w×h,使用一个1×1卷积神经网络计算深度注意力权重,将计算出的权重图与原始输入特征图逐元素相乘,输出重构后的特征图维度c×w×h;

S23、横向注意力模块将输入特征图在高度维度上进行变换,变换后的特征图维度为h×w×c,使用一个1×1卷积神经网络计算横向注意力权重,将计算出的权重图与原始输入特征图逐元素相乘,输出重构后的特征图维度为c×w×h;

S24、将步骤S21、S22、S23所输出重构后的特征图逐元素以逐元素相加的方式进行融合,得到c×w×h的三重注意力输出特征图。

4.根据权利要求3所述的水下鱼类图像识别检测方法,其特征在于:所述步骤S3中所述的结合门控机制的并行上采样分支结构、结合门控机制的并行下采样分支结构分别对步骤S24输出的三种注意力输出特征图进行上采样操作、下采样操作,通过结合门控机制抑制无关特征,提高特征表达能力。

5.根据权利要求4所述的水下鱼类图像识别检测方法,其特征在于:所述结合门控机制的并行上采样分支结构中,根据每次迭代训练使用的图像数量n,获得输入维度为n×c×w×h的特征图,并且进行上采样操作,上采样操作的步骤如下:S301、维度为n×c×w×h的特征图在第一分支经过全局平均池化处理,得到输出为n×c×1×1的特征图,n×c×1×1的特征图经过结合门控机制的非线性激活函数进行处理,得到n×c×1×1的第一分支输出特征图;

S302、维度为n×c×w×h的特征图在第二分支经过普通上采样结构和1×1卷积处理,得到空间维度加倍,通道数减半的n×c/2×2w×2h的第二分支输出特征图;

S303、维度为n×c×w×h的特征图在第三分支经过容器模块处理,得到空间维度加倍,通道数减半的n×c/2×2w×2h的第三分支输出特征图;

S304、对第二分支输出特征图和第三分支输出特征图沿通道维度拼接,得到n×c×2w×2h的输出特征图;

S305、将步骤S304中输出的维度为n×c×2w×2h的输出特征图与步骤S301中输出的维度n×c×1×1的第一分支输出特征图逐元素相乘,得到上采样操作后获得的维度为n×c×

2w×2h的上采样输出特征图。

6.根据权利要求5所述的水下鱼类图像识别检测方法,其特征在于:所述结合门控机制的并行下采样分支结构中,根据每次迭代训练使用的图像数量n,获得输入维度为n×c×w×h的特征图,并且进行下采样操作,下采样操作的步骤如下:S306、将维度为n×c×w×h的特征图在第一分支经过全局平均池化处理,得到输出为n×c×1×1的特征图,n×c×1×1的特征图经过结合门控机制的非线性激活函数进行处理,得到n×c×1×1的第一分支输出特征图;

S307、维度为n×c×w×h的特征图在第二分支经过最大池化处理,得到空间维度减半的n×c×w/2×h/2的特征图,n×c×w/2×h/2的特征图再经过1×1卷积处理得到输出通道减半的n×c/2×w/2×h/2的第二分支输出特征图;

S308、维度为n×c×w×h的特征图在第三分支经过容器模块处理,得到n×c/2×w/2×h/2的第三分支输出特征图;

S309、对通过第二分支输出特征图和第三分支输出特征图沿通道维度拼接,得到n×c×w/2×h/2的输出特征图;

S310、将步骤S309中维度为n×c×w/2×h/2的输出特征图与步骤S306中维度为n×c×

1×1的第一分支输出特征图逐元素相乘,得到最终的下采样操作后获得的维度为n×c×w/

2×h/2的下采样输出特征图。

7.根据权利要求1所述的水下鱼类图像识别检测方法,其特征在于:所述步骤S5中利用改进完成的rt‑detr模型采用步骤S1中的训练集进行训练,训练参数为epoch=200,输入图片大小为640*640像素;采用4组训练样本迭代;优化器为AdamW。