1.一种基于多模态融合特征的抓取位姿检测方法,其特征在于,包括以下步骤:S1:获取待抓取物体的RGB图像和深度图像;
S2:分别对RGB图像和深度图像进行多层特征提取,得到对应多个层级的RGB特征和深度特征;
S3:对各个层级对应的RGB特征和深度特征进行投影和拼接,得到各个层级的多模态融合特征;
S4:分别对各个层级的多模态融合特征进行特征提取,生成对应的待预测特征图;
S5:基于待预测特征图进行抓取位姿预测,并根据抓取位姿预测的结果计算对应的抓取位置信息。
2.如权利要求1所述的基于多模态融合特征的抓取位姿检测方法,其特征在于:步骤S2中,首先将RGB图像和深度图像分别输入到具有相同结构的卷积神经网络中,然后通过卷积神经网络的各个层分别提取对应层级的RGB特征和深度特征。
3.如权利要求2所述的基于多模态融合特征的抓取位姿检测方法,其特征在于:步骤S3中,通过两个卷积层和一个最大池化层对各个层级对应的RGB特征和深度特征进行投影和拼接;其中,多模态融合特征通过如下公式表示:rgb depth
上述式中:fi 表示从卷积神经网络第i层中提取的RGB特征;fi 表示从卷积神经网络第i层中提取的深度特征;Gi()表示一组非线性操作,即投影处理; 表示经过投影处理后的RGB特征; 表示经过投影处理后的深度特征;pi表示卷积神经网络第i层提取的RGB特征和深度特征对应的多模态融合特征。
4.如权利要求1所述的基于多模态融合特征的抓取位姿检测方法,其特征在于:步骤S5中,抓取位姿预测的结果包括抓取框预测中心点坐标 抓取框预测偏移向量抓取框预测尺寸 和 以及抓取框预测旋转角度
5.如权利要求4所述的基于多模态融合特征的抓取位姿检测方法,其特征在于:抓取位置信息(x,y,w,h,θ)包括抓取框中心点坐标(x,y)、抓取框尺寸w和h,以及抓取框旋转角度θ;
其中:
上述式中: 表示将 限制在(0,1)范围内的激活函数。
6.如权利要求4所述的基于多模态融合特征的抓取位姿检测方法,其特征在于,抓取位姿预测是找寻一个最优的抓取框:首先基于待预测特征图生成中心点热力图;然后基于中心点热力图的峰值点 确定最大抓取框的中心点,即预测中心点坐标 最后输出用于修正中心点的预测偏移向量 预测尺寸 和 以及预测旋转角度
7.如权利要求6所述的基于多模态融合特征的抓取位姿检测方法,其特征在于,预测抓取框中心点坐标时:首先基于待预测特征图生成对应的中心点热力图;然后将中心点热力图中值大于预设阈值的像素点作为候选抓取框预测中心点;最后将值最大的候选抓取框预测中心点的坐标作为抓取框预测中心点坐标。
8.如权利要求7所述的基于多模态融合特征的抓取位姿检测方法,其特征在于:步骤S4和S5中,通过抓取位姿检测模型来生成待预测特征图并进行抓取位姿预测;所述抓取位姿检测模型包括用于对各个层级的多模态融合特征进行特征提取的特征图提取模型,以及用于分别预测抓取框预测中心点坐标、抓取框预测偏移向量、抓取框的预测尺寸和预测旋转角度的三个预测网络;
训练时,首先对特征图提取模型进行预训练,然后对所述抓取位姿检测模型进行端到端的训练。
9.如权利要求8所述的基于多模态融合特征的抓取位姿检测方法,其特征在于:所述抓取位姿检测模型的总损失函数表示为:L=λ1L1+λwLw+λhLh+λθLθ;
其中:
上述式中:L表示总损失函数;L1表示预测中心点坐标网络的损失函数;Lw、Lh、Lθ分别表示预测抓取框的长、宽、旋转角度网络的损失函数;λ1、λw、λh、λθ分别表示损失函数在总损失函数中的比例系数,取值分别为0.1、0.2、0.2、1;表示中心点热力图;Y表示预处理后的标签;N表示候选抓取框预测中心点的个数;α、β均表示超参数; 表示抓取框预测尺寸;
表示抓取框预测旋转角度;θ表示抓取框旋转角度;w、h表示抓取框尺寸。
10.如权利要求9所述的基于多模态融合特征的抓取位姿检测方法,其特征在于:计算损失时,通过如下步骤对抓取框的标签进行预处理:对于中心点热力图的真实中心点p,将其进行下采样得到对应关键点对于中心点热力图的每个像素点,通过高斯核 映射到标签上;
其中,σp表示标准方差,σp取值为radius;
上述式中:真实中心点p下采样后的关键点 表示为 R表示下采样因子,取值为
4;x、y表示抓取框中心点坐标;w、h表示抓取框尺寸;λ表示IOU阈值,取值为0.25。