1.一种结合多模态数据融合和Multiplemix的水下目标检测方法,其特征在于,包括如下步骤:步骤1、采集水下目标的RGB图像数据和Multispectral多光谱图像数据;
步骤2、将RGB图像数据和Multispectral多光谱图像数据分别输入多模态数据融合网络进行特征提取,将提取后的特征进行拼接融合,得到多模态融合数据;
步骤3、将下采样SPDmix网络和卷积注意力机制CACmix网络组成Multiplemix网络模型,以多模态融合数据为模型的输入,将提取后的粒度特征再次融合,并通过检测头来输出水下目标的定位和分类,以此训练Multiplemix网络模型,并设置损失函数和正负样本分配策略,直至达到收敛,则Multiplemix网络模型训练完成;
步骤4、应用训练完成的Multiplemix网络模型对水下目标的定位和分类进行检测;
所述步骤2具体为:
S101:多模态数据融合网络是一个双分支特征级融合网络,将RGB图像和Multispectral多光谱图像数据分别输入对应的分支;
S102:将RGB模态数据输入到RGB分支特征提取网络中得到FRGB,将Multispectral多光谱图像数据输入到Multispectral多光谱分支特征提取网络中得到FMS,公式如下:FRGB=f1(IRGB)
FMS=f1(IMS)
其中,f1是对RGB和Multispectral模态的无跨步共享卷积,并且共享权重来减少参数量,IRGB和IMS是原始的图像数据;
S103:在原始的特征基础上加上提取后的特征,得到FRGB1,FMS1公式如下:S104:进一步提取各自分支的特征得到高分辨的特征公式如下:Fout1=f2(FRGB1)
Fout2=f2(FMS1)
Fout1和Fout2分别为高分辨率RGB特征和Multispectral多光谱特征,f2为无跨步共享卷积提取FRGB1和FMS1;
S105:将Fout1,Fout2结果进行特征级融合,得到数据F0为多模态数据,公式如下:F0=αFout1⊙βFout2
α,β为比例系数,⊙为沿通道轴的串联操作;
步骤3中,所述下采样SPDmix网络对特征进行深度堆叠,将特征空间维度缩小一倍,同时将通道维度增加两倍;所述深度堆叠分为两步,一步是先进行通道维度的堆叠,再经过卷积进行信息整合;另一步是先进行卷积操作,再进行通道维度的堆叠,然后将两步提取的特征再次融合;
步骤3中,所述卷积注意力机制CACmix网络用于特征融合过程中赋予特征之间关系,增加特征之间的交互,使网络结构选择重要的信息,在第一阶段通过共享卷积块减少计算资源,在第二阶段分别走卷积模块和注意力机制模块,最后加权融合;动态地选择和加权输入数据的部分。
2.根据权利要求1所述的结合多模态数据融合和Multiplemix的水下目标检测方法,其特征在于,步骤3中,所述损失函数为Loss,定义其公式如下:Loss=aLbox+bLobj+cLcls+dLhw (1)Lbox是预测框位置x,y,h,w和真实框造成的损失;Lobj是目标置信度造成的损失,表示有无目标的置信度;Lcls是预测类造成的损失;Lhw是定义的长宽比损失,其中a,b,c,d是平衡因子;
定义的长宽比损失是让预测框向正方形靠拢,水下目标的真实框近似于正方形;因此选择让预测框向正方形收敛;因为小目标小的特点,所以标注框的形状不再受限制,即使目标是长方形但因为是小目标,正方形的框也能将他标注,因此,目标是在原来的损失基础上增加一个长宽比损失,目的是让预测框更接近正方形,公式的意义是预测框越接近正方形损失越小;
(2)式中IOU为交并比,Pr是预测框,tr是真实框;式中area是计算pr与tr的重叠面积;
gt
(3)式Lbox是预测框位置x,y,h,w和真实框造成的损失,其中b,b 分别表示预测框和真实框的中心点,ρ表示两个中心点之间的欧式距离;m表示预测框和真实框的最小闭包区域的对角线距离,av是影响因子;
ti表示真实框与预测框的重合程度,xi为预测框的置信度;
yi表示真实框标签,pi表示预测值;
hi是预测框的长,wi是预测框的宽。
3.根据权利要求1所述的结合多模态数据融合和Multiplemix的水下目标检测方法,其特征在于,步骤3中,所述正负样本分配策略具体为:在损失函数的基础上,预测框的形状越靠近正方形的正样本机会越多,定义的公式如下:IOU为交并比,计算预测目标框与真实目标框的交并比,hi是预测框的长,wi是预测框的宽,α为比例系数,在正样本经过初筛和复筛的时候,IOU的筛选可去除低质量的正样本,然后排名,保留前十个,操作是在保留前十个的正样本里。