1.基于视觉语言动作多模态对齐策略的机器人抓取检测方法,其特征在于:包含如下步骤:S1、将自然语言指令输入预训练的大语言模型LLM进行解析,生成物体类别描述、任务描述和抓取描述三类描述,并将三类描述与自然语言指令一同输入预训练的BERT模型进行处理,得到高维的文本特征;
S2、输入物体的三维点云数据,通过预训练的PointNet++点云编码器提取几何和结构特征,生成点云嵌入Fp;
S3、将点云数据输入预训练的FGC‑GraspNet模块,生成一组候选抓取姿势gi;将候选抓取姿势gi展开为动作特征Xg,并通过多层感知机MLP提取抓取特征Fg;
S4、通过文本编码器模型对步骤S1得到的三类描述和自然语言指令进行通道注意力优化,得到语言文本特征Ftxt;
S5、根据抓取特征Fg,采用多层感知机构成的模态对齐模块对点云特征Fp和语言文本特征Ftxt进行维度对齐操作,得到多模态特征;
S6、根据交叉注意力机制,将动作特征Fg设置为查询Query,点云特征Fp设置为键Key,语言文本特征Ftxt设置为值Value,通过交叉注意力模块实现多模态特征的融合,得到融合特征Ffusion;
S7、将步骤S6得到的融合特征Ffusion输入策略模块,通过多层感知机MLP提取抓取特征的重要信息,并通过Sigmoid激活函数得到每个候选抓取动作的评估值S;
S8、根据步骤S7得到的每个候选抓取动作的评估值S,对所有候选抓取动作进行排序,输出排序后的动作列表,控制机器人执行最优抓取动作,若抓取失败则回退到次优动作。
2.根据权利要求1所述的基于视觉语言动作多模态对齐策略的机器人抓取检测方法,其特征在于:所述步骤S2中预训练的PointNet++点云编码器包括多尺度点云特征提取层MSG和特征融合层SA,生成点云嵌入的公式为Fp=SA(MSG(Xp,dim=0)),通过公式Fp=Align(squeeze(Fp,dim=1),dim=1,num=N)对点云嵌入Fp进行扩展。
3.根据权利要求2所述的基于视觉语言动作多模态对齐策略的机器人抓取检测方法,其特征在于:所述步骤S3的具体步骤如下:S31、将每个大小为4×4的[R,T]齐次矩阵的候选抓取姿势gi展开为一维特征Xg=[x,y,z,q0,q1,q2,q3];
tr
其中,x,y,z代表了平移关系,x,y,z=T ;q0,q1,q2,q3代表了旋转矩阵的四元数;
S32、将展开后的抓取姿势特征Xg输入由多层感知机MLP组成的抓取Encoder,得到Fg,公式如下:Fg=MLP(Xg,dim=3)
式中,Xg为展开后的动作特征。
4.根据权利要求3所述的基于视觉语言动作多模态对齐策略的机器人抓取检测方法,其特征在于:所述步骤S4的具体步骤如下:S41、文本编码器模型对步骤S1得到的三类描述和自然语言指令进行编码,生成任务描述段落 对象类描述段落 抓取描述段落 和语言指令的词嵌入;
S42、采用通道注意力机制SE模块对文本特征进行加权处理,得到语言文本特征Ftxt,公式如下:Ftxt=SE(stack(Ftd,Fod,Fgd,FI,dim=1))其中,stack将Ftd,Fod,Fgd,FI拼接为多通道的统一特征表示;
S43、对融合后的语言特征Ftxt进行通道复制操作,公式如下:Ftxt=Align(squeeze(Ftxt,dim=1),dim=1,num=N)其中,N表示候选抓取姿势集gi中抓握姿势数量,squeeze将语言特征移除多余维度后再按通道进行复制。
5.根据权利要求4所述的基于视觉语言动作多模态对齐策略的机器人抓取检测方法,其特征在于:所述步骤S6中得到融合特征Ffusion的公式如下:Ffusion=cross_attention(Q=Fg,K=Fp,V=Ftxt)其中,动作特征Fg为查询Q,点云特征Fp为键K,语言文本特征Ftxt为值V。
6.根据权利要求5所述的基于视觉语言动作多模态对齐策略的机器人抓取检测方法,其特征在于:得到每个候选抓取动作的评估值S的公式如下:S=Sigmoid(MLP(Ffusion),dim=‑1)。
7.根据权利要求6所述的基于视觉语言动作多模态对齐策略的机器人抓取检测方法,其特征在于:所述步骤S2中的点云嵌入