1.一种基于知识补全平衡网络的多模态目标检测方法,其特征在于,包括如下步骤:步骤1,提取红外图像和可见光图像的多尺度特征,然后,再经过特征金字塔和ROIAlign获得两个模态的ROI特征,可见光ROI特征和红外ROI特征;
步骤2,分别对可见光ROI特征和红外ROI特征进行知识补全,得到知识补全后的可见光ROI特征和红外ROI特征;
所述知识补全包括类知识补全,即,对可见光ROI特征和红外ROI特征进行类知识补全,得到类知识补全后的可见光类目标ROI特征和红外类目标ROI特征;
所述知识补全还包括空间知识补全,即,对可见光ROI特征和红外ROI特征进行空间知识补全,得到空间知识补全后的可见光空间ROI特征和红外空间ROI特征;
步骤3,利用多模态特征融合模块对知识补全后的两模态ROI特征进行融合,获得多模F F态融合特征x,然后,将多模态融合特征x输入目标识别头和目标定位头对目标的类别和位置进行预测;
所述利用多模态特征融合模块对知识补全后的两模态ROI特征进行融合,是指将类知识补全后的可见光类目标ROI特征和类知识补全后的红外类目标ROI特征融合,以及将空间知识补全后的可见光空间目标ROI特征和类知识补全后的红外空间目标ROI特征融合,具体为:将知识补全后的两模态ROI特征拼接,并输入多模态特征融合模块,得到多模态融合特F征x:
其中,MFFM(·)为多模态特征融合模块,利用卷积整合两个模态的ROI特征。
2.根据权利要求1所述一种基于知识补全平衡网络的多模态目标检测方法,其特征在于,步骤2中所述知识补全包括类知识补全,即,对可见光ROI特征和红外ROI特征进行类知识补全,得到类知识补全后的可见光类目标ROI特征和红外类目标ROI特征,具体步骤如下:通过计算条件信息熵对两模态ROI特征中包含的目标识别任务相关信息量进行度量,bc tc bc以确定类基准模态ROI特征x 和类目标模态ROI特征x ;根据类基准ROI特征x 为类目标tcROI特征x 分配伪标签;
根据所述伪标签构建对应特定类别的类ROI特征集合 其中,C为类别数量;将类ROI特征集合 中各ROI特征视作邻域节点,并将目标类ROI特征视作中心节点,和类ROI特征集合 中的各节点之间建立边连接,以构建类知识图Gi=(Vi,Ei),Vi表示图的节点,Ei表示图的边;
接着,利用信息聚合器对中心节点的邻域信息进行聚合,并通过整合中心节点特征hv和聚合后的邻域信息对中心节点特征进行更新,更新后的中心节点特征表示为tc最后,利用更新后的中心节点特征 对类目标ROI特征x 进行类知识补全,得到类知识补全后的类目标ROI特征 表示为:c
其中,W为可学习的类知识补全参数。
3.根据权利要求1或2所述一种基于知识补全平衡网络的多模态目标检测方法,其特征在于,步骤2中所述知识补全还包括空间知识补全,即,对可见光ROI特征和红外ROI特征进行空间知识补全,得到空间知识补全后的可见光空间ROI特征和红外空间ROI特征,具体步骤如下:通过计算条件微分信息熵对两模态ROI特征中包含的目标识别任务相关信息量进行评bs ts估,以确定空间基准模态ROI特征x 和空间目标模态ROI特征x ,利用空间基准模态ROI特bs征x 的伪标签构建同类ROI特征集合 以获得类原型Pi;
bs
接着,将类原型Pi和基准模态ROI特征x 进行拼接,输入空间软掩码模块获得空间软掩bs码Ms,并利用空间约束确保空间软掩码Ms准确捕获空间基准模态ROI特征x 中的空间知识;
ts
最后,将空间软掩码Ms和空间目标模态ROI特征x 进行逐元素乘,将空间知识整合到空ts间目标模态ROI特征x 中,实现空间知识补全,得到空间知识补全后的可见光空间目标ROI特征和红外空间目标ROI特征融合。
4.根据权利要求2所述一种基于知识补全平衡网络的多模态目标检测方法,其特征在于,步骤2中所述通过计算条件信息熵对两模态ROI特征中包含的目标识别任务相关信息量bc进行度量,具有较低条件信息熵的模态的ROI特征被视作类基准ROI特征x ,具有高条件信tc息熵的模态的ROI特征被视作类目标ROI特征x ,表示为:V I c
其中,x 和x 分别表示可见光模态的ROI特征和红外模态的ROI特征,y 表示类标签,H(·)表示条件信息熵。
5.根据权利要求3所述一种基于知识补全平衡网络的多模态目标检测方法,其特征在于,类原型Pi表示为:其中, 是伪标签为i的空间基准ROI特征集合,K为集合 中ROI特征数量,Mean(·)为空间维度的平均池化操作。
6.根据权利要求3所述一种基于知识补全平衡网络的多模态目标检测方法,其特征在于,设计了一个基于条件微分信息熵的空间约束Lsc,表示为:其中,h(·)表示条件微分信息熵。
7.根据权利要求1所述一种基于知识补全平衡网络的多模态目标检测方法,其特征在F于,步骤3中所述将多模态融合特征x 输入目标识别头和目标定位头对目标的类别和位置进行预测,表示为:Fs Fs F
u ,σ =OLH(x)
Fs Fs
其中,u 和σ 预测框的均值和标准差,ORH(·)和OLH(·)分别表示目标识别头和目标定位头,RP(·)表示重参化操作,用于根据多模态融合特征预测目标的类别和位置, 和分别表示类别预测和位置预测。
8.根据权利要求1所述一种基于知识补全平衡网络的多模态目标检测方法,其特征在于,步骤3还包括通过计算动态平衡损失并对所述目标检测方法的模型更新,具体为:首先,定义差异比例ρc和ρs,用于动态监控各模态间的任务相关信息量差异:其中, 和 分别表示同一个批次中可见光图像包含的目标识别和目标定位任务相关信息量, 和 分别表示同一个批次中红外图像包含的目标识别和目标定位任务相关信息量;
之后,面向目标识别任务和目标定位任务分别设置了动态平衡损失Ldc和Lds:其中,Lc和Ls表示目标识别损失和目标定位损失, 和 是可见光和红外模态对应的目标识别损失, 和 是可见光和红外模态对应的目标定位损失,δc和γc是在目标识别任务中调节对两个模态关注程度,δs和γs用于在目标定位任务中调节对两个模态关注程度。