利索能及
我要发布
收藏
专利号: 2023111714860
申请人: 南京信息工程大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于车载相机多模态特征融合方法,其特征在于,包括如下步骤:

S1、特征注意力阶段:构建分组特征交叉注意力机制网络,将RGB和车载相机产生的RGBX图片输入双分支特征提取网络获得第i阶段的输出特征图F_RGB、F_RGBX,然后将特征图F_RGB、F_RGBX输入到分组特征交叉注意力机制网络中,对两个特征图交叉定位空间信息,提取关键特征,得到特征注意力图RGB_Atten和RGBX_Atten;具体包括如下子步骤S101至S103:Ci×Hi×Wi G×Hi×Wi

S101、利用reshape操作将F_RGB、F_RGBX∈R ,变为R ;

其中,Ci、Hi、Wi分别是第i阶段输出特征图的通道数、特征图的长度、特征图的宽度,G是特征图的分组的个数;

S102、将分组的特征图输入到HW特征压缩注意力网络中,获得含有H、W两个维度特征的空间注意力编码如下式:RGB_HWAtten=Se_HW(F_RGB),

RGBX_HWAtten=Se_HW(F_RGBX);

其中,RGB_HWAtten是F_RGB经过HW特征压缩注意力网络产生的注意力编码,Se_HW函数代表对H、W两个维度特征压缩提取的操作;

S103、然后将含有空间坐标信息的注意力编码经过空间注意力网络聚合特征图的通道信息得到特征注意力图RGB_Atten和RGBX_Atten,如下式:RGB_Atten=Spatial(RGB_HWAtten)

RGBX_Atten=Spatial(RGBX_HWAtten)

其中,Spatial函数代表对注意力编码Se_Atten的空间注意力的进一步提取操作,最后Ci×Hi×Wi还原分组RGB_Atten∈R ;

S2、特征融合阶段:包括:S2‑1构建动态特征重定义网络,将特征注意力图RGB_Atten、RGBX_Atten输入到动态特征重定义网络中,通过RGB_Atten和RGBX_Atten特征注意力图的相关性来获得相似性得分,以自适应地加权模态间相对应的特征,得到重定义特征图R_RGB和R_RGBX;具体包括如下子步骤S2‑1.1至步骤S2‑1.2:S2‑1.1、所述动态特征重定义网络,包括一个3X3的卷积网络,用于将前一阶段的RGB_Atten和RGBX_Atten注意力特征图通道降维为1,然后展平如下式:F_RGB_Atten=Flatten(Con3x3(RGB_Atten))F_RGBX_Atten=Flatten(Con3x3(RGBX_Atten))

1×HiWi

其中,Con3X3代表3x3的卷积操作,Flatten代表展平操作,F_RGB_Atten∈R 表示展平后的特征序列;

S2‑1.2、通过计算两个展平后的特征序列的余弦相似度得到相似度得分,将相似度得分与输入的模态特征相乘,得到重定义特征图R_RGB和R_RGBX,如下式:R_RGB=RGB_Atten*Cos_Simlar(F_RGB_Atten,F_RGBX_Atten)R_RGBX=RGBX_Atten*Cos_Simlar(F_RGB_Atten,F_RGBX_Atten)其中,Cos_Simlar表示计算两序列的余弦相似度得分;

步骤S2‑2、构建跨模态特征提取网络,将重定义特征图R_RGB和R_RGBX输入到跨模态特征提取网络中,融合另一模态的特征信息,得到最终的模态融合特征图Fuse_RGB和Fuse_RGBX,用于输入到双分支第i+1阶段的特征提取网络中进一步提取特征,具体为:将重定义特征图R_RGB和R_RGBX输入到跨模态特征提取网络中,通过计算Cross self_attention获得跨模态全局注意力,得到最终的模态融合特征图Fuse_RGB和Fuse_RGBX如下式:Fuse_RGB,Fuse_RGBX=Cross self_attention(R_RGB,R_RGBX)其中Cross self_attention表示融合R_RGB和R_RGBX的特征信息操作。

2.根据权利要求1所述的一种基于车载相机多模态特征融合方法,其特征在于,步骤S102包括如下子步骤:S102‑1、通过一维的池化操作先沿H方向聚合含有W空间坐标信息的特征图RGBh_Atten和RGBXh_Atten,如下式:其中,c表示输入特征图的一个通道,对W空间信息进行压缩编码得到RGBh_Atten;h表示输入特征图某个通道的高,w表示输入特征图某个通道的宽,j表示遍历w像素的变量;

S102‑2、利用3x3空洞卷积的编码解码结构,经过h_swish激活函数后与输入相乘得到含有W空间信息的RGB_HAtten,具体如下式:RGB_HAtten=h_swish(con3x3(RGBh_Atten))*F_RGBRGBX_HAtten=h_swish(con3x3(RGBXh_Atten))*F_RGBXS102‑3、将含有W空间信息的RGB_HAtten和RGBX_HAtten通过一维的池化操作沿W方向聚合含有H空间坐标信息的特征图RGBw_Atten和RGBXw_Atten,如下式:其中,w表示输入特征图一个通道的宽,j表示遍历h像素的变量;

S102‑4、输入3x3空洞卷积的编码解码结构,经过h_swish激活函数后与输入相乘得到含有HW空间信息的RGB_HWAtten,具体如下式:RGB_HWAtten=h_swish(con3x3(RGBw_Atten))*RGB_HAttenRGBX_HWAtten=h_swish(con3x3(RGBXw_Atten))*RGBX_HAtten。

3.根据权利要求2所述的基于车载相机多模态特征融合方法,其特征在于,步骤S103具体为:所述空间注意力网络包括一个3x3的卷积操作进一步汇聚空间信息,然后经过均值方差的标准化操作生成空间注意力权值图,最后与输入逐元素相乘得到最终的RGB_Atten和RGBX_Atten特征注意力图,具体如下式:RGB_Atten=Norm(Con3x3(RGB_HWAtten))*RGB_HWAttenRGBX_Atten=Norm(Con3x3(RGBX_HWAtten))*RGBX_HWAtten其中Norm表示对卷积后的注意力图均值标准化操作。

4.根据权利要求3所述的一种基于车载相机多模态特征融合方法,其特征在于,跨模态特征提取网络中Cross self_attention,是基于transformer的self_attention改进,将R_RGB,R_RGBX分别编码、计算出对应的三个含有输入特征语义表示的矩阵向量Q、K、V,然后根据self_attention分别计算出全局注意力图Atten_RGB和Atten_RGBX,将两个模态的全局注意力图相乘融合为Atten_fuse,如下式:Atten_fuse=Atten_RGB*Atten_RGBX

将融合后的Atten_fuse分别乘上R_RGB的V,再加上R_RGB的全局注意力图Atten_RGB跨模态乘上R_RGBX产生的V,实现交叉融合模态信息,得到融合RGBX信息的Fuse_RGB.和融合RGB信息的Fuse_RGBX.如下式:Fuse_RGB=Atten_fuse*VRGB+Atten_RGB*VRGBXFuse_RGBX=Atten_fuse*VRGBX+Atten_RGBX*VRGB。

5.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述方法的步骤。

6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述方法的步骤。