利索能及
我要发布
收藏
专利号: 2023108156939
申请人: 合肥工业大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-30
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种考虑模态不确定性的多模态目标检测方法,其特征在于,包括以下步骤:S1、将数据库中的数据输入神经网络中进行训练,以得到训练完成的神经网络;

S2、将数据库中同一检测对象的各种模态的数据输入训练完成的神经网络中,并输出各种模态对应的结果集,结果集包括图像边界框角点坐标、图像类别预测置信度向量与置信估计分数;

S3、将各种模态下的图像边界框角点坐标转化到同一坐标系中,并在该坐标系下将各种模态的结果集彼此匹配关联;

S4、将各种模态的置信估计分数作为置信权重赋予该模态下的图像类别预测置信度分数,以构成各种模态下的期望;

S5、对各个期望求均值,将求得的各个均值进行融合,选取融合后图像类别预测置信度分数最大值对应的图像类别,该图像类别即为检测对象的检测结果;

步骤S1的具体步骤如下:

S11、首先构建神经网络:神经网络包括输入层、隐藏层和输出层,隐藏层包括通用层以及与通用层连接且彼此并列的置信估计层、分类预测层和边框预测层;

输入层、通用层、置信估计层和输出层彼此依次连接构成置信估计网络,置信估计网络输出层的激活函数为sigmod函数,置信估计网络输出置信估计分数;

输入层、通用层、分类预测层和输出层彼此依次连接构成分类预测网络,分类预测网络输出层的激活函数为softmax函数,分类预测网络输出图像类别预测置信度向量;

输入层、通用层、边框预测层和输出层彼此依次连接构成边框预测网络,边框预测网络输出图像边界框角点坐标;

S12、接着构建数据库:数据库内存储预定数量的检测对象的各种模态数据,且同一检测对象的各种模态数据彼此一一对应;模态类别包括雷达模态和摄像模态,检测对象在雷达模态中表现为激光点云,检测对象在摄像模态中表现为RGB图像;

S13、按预定比例将数据库中的数据分为训练集和预测集,将训练集中检测对象同一模态类别的数据分别输入分类预测网络和边框预测网络中进行同步训练;当分类预测网络和边框预测网络同时达到各自对应的预测精度时停止训练,此时分类预测网络和边框预测网络均训练完毕;

S14、锁定通用层中权重参数的数值,即通用层中权重参数的数值不再更新;

S15、将训练集中检测对象同一模态类别的数据依次输入置信估计网络,输出对应的置信估计分数;

S16、将该输入置信估计网络的数据输入已经训练完成的分类预测网络中,得到对应的图像类别预测置信度向量,图像类别预测置信度向量中的各个元素分别表示对应图像类别的图像类别预测置信度分数;对该图像类别预测置信度向量进行掩膜运算,以获得对应的图像类别预测概率真值;

S17、将图像类别预测概率真值和置信估计分数代入置信估计层中的置信损失函数中,计算置信损失值,并同时更新置信估计层的权重参数;当置信损失值达到预定的损失范围后停止训练,此时置信估计网络训练完毕;

S18、分别获得雷达模态下的置信估计网络、分类预测网络和边框预测网络,以及摄像模态下的置信估计网络、分类预测网络和边框预测网络;

所述置信损失函数的表达式如下:

其中,Lconf表示置信损失值;N表示训练集中检测对象

的总数;ci表示训练集中第i个检测对象的置信估计分数;bi表示训练集中第i个检测对象的图像类别预测概率真值;log表示对数函数。

2.根据权利要求1所述的一种考虑模态不确定性的多模态目标检测方法,其特征在于,步骤S2的具体步骤如下:S21、将预测集中检测对象的RGB图像数据输入对应摄像模态下的置信估计网络、分类预测网络和边框预测网络,以获得对应的置信估计分数、图像类别预测置信度向量和图像边界框角点坐标,该置信估计分数、图像类别预测置信度向量和图像边界框角点坐标组合形成摄像模态结果集;

S22、将预测集中同一检测对象的激光点云数据输入对应雷达模态下的置信估计网络、分类预测网络和边框预测网络,以获得对应的置信估计分数、图像类别预测置信度向量和图像边界框角点坐标,该置信估计分数、图像类别预测置信度向量和图像边界框角点坐标组合形成雷达模态结果集。

3.根据权利要求2所述的一种考虑模态不确定性的多模态目标检测方法,其特征在于,步骤S3的具体步骤如下:S31、以摄像模态结果集中检测对象的图像边界框角点坐标中的任一坐标为坐标原点,并以垂直相交于该坐标的两边界框所在的直线为坐标轴,建立图像坐标系;

S32、将雷达模态结果集中的图像边界框角点坐标通过旋转平移的方式与所述图像坐标系中同一检测对象摄像模态结果集中的图像边界框角点坐标彼此对齐重合;

S33、坐标对齐重合后的雷达模态结果集和摄像模态结果集中的置信估计分数和图像类别预测置信度向量彼此相互关联。

4.根据权利要求3所述的一种考虑模态不确定性的多模态目标检测方法,其特征在于,步骤S4的具体步骤如下:S41、对雷达模态结果集和摄像模态结果集中的图像边界框角点坐标进行坐标匹配检测,以使同一检测对象的RGB图像和激光点云完全匹配重合;

S42、将检测对象雷达模态下的置信估计分数作为置信权重赋予该雷达模态下图像类别预测置信度向量中的各个元素,并对赋予置信权重的各个元素进行求和,以获得对应的雷达模态期望;

S43、对雷达模态期望进行求均值,以获得雷达模态期望均值;

S44、将检测对象摄像模态下的置信估计分数作为置信权重赋予该摄像模态下图像类别预测置信度向量中的各个元素,并对赋予置信权重的各个元素进行求和,以获得对应的摄像模态期望;

S45、对摄像模态期望进行求均值,以获得摄像模态期望均值。

5.根据权利要求4所述的一种考虑模态不确定性的多模态目标检测方法,其特征在于,步骤S5的具体步骤如下:S51、将雷达模态期望均值定义为雷达模态期望证据,将摄像模态期望均值定义为摄像模态期望证据;

S52、将雷达模态期望证据和摄像模态期望证据输入D‑S证据理论进行融合,利用D‑S证据理论的组合规则对雷达模态期望证据和摄像模态期望证据迭代组合预定次数后的结果作为检测对象的合成结果;

S53、选取合成结果中图像类别预测置信度分数最大值对应的图像类别,该图像类别即为检测对象的检测结果。

6.根据权利要求5所述的一种考虑模态不确定性的多模态目标检测方法,其特征在于,所述摄像模态期望证据表示如下:其中,MS表示摄像模态期望值;WS表示检测对象摄像模态下的置信

估计分数;Sj表示检测对象摄像模态下的图像类别预测置信度向量中的第j个元素;nS表示检测对象摄像模态下的图像类别预测置信度向量中元素的个数;

所述雷达模态期望证据表示如下:

MD表示雷达模态期望值;WD表示检测对象雷达模态下的置信估计

分数;Dj表示检测对象雷达模态下的图像类别预测置信度向量中的第j个元素;nD表示检测对象雷达模态下的图像类别预测置信度向量中元素的个数。

7.根据权利要求6所述的一种考虑模态不确定性的多模态目标检测方法,其特征在于,所述通用层、置信估计层、分类预测层和边框预测层均为全连接层。