买专利、卖专利、专利购买、专利交易、专利出售、高企申报-基于视觉语言动作多模态对齐策略的机器人抓取检测方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

基于视觉语言动作多模态对齐策略的机器人抓取检测方法

￥25200

专利号： 2024117577823

申请人：江苏科技大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-03-02

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.基于视觉语言动作多模态对齐策略的机器人抓取检测方法，其特征在于：包含如下步骤：S1、将自然语言指令输入预训练的大语言模型LLM进行解析，生成物体类别描述、任务描述和抓取描述三类描述，并将三类描述与自然语言指令一同输入预训练的BERT模型进行处理，得到高维的文本特征；

S2、输入物体的三维点云数据，通过预训练的PointNet++点云编码器提取几何和结构特征，生成点云嵌入Fp；

S3、将点云数据输入预训练的FGC‑GraspNet模块，生成一组候选抓取姿势gi；将候选抓取姿势gi展开为动作特征Xg，并通过多层感知机MLP提取抓取特征Fg；

S4、通过文本编码器模型对步骤S1得到的三类描述和自然语言指令进行通道注意力优化，得到语言文本特征Ftxt；

S5、根据抓取特征Fg，采用多层感知机构成的模态对齐模块对点云特征Fp和语言文本特征Ftxt进行维度对齐操作，得到多模态特征；

S6、根据交叉注意力机制，将动作特征Fg设置为查询Query，点云特征Fp设置为键Key，语言文本特征Ftxt设置为值Value，通过交叉注意力模块实现多模态特征的融合，得到融合特征Ffusion；

S7、将步骤S6得到的融合特征Ffusion输入策略模块，通过多层感知机MLP提取抓取特征的重要信息，并通过Sigmoid激活函数得到每个候选抓取动作的评估值S；

S8、根据步骤S7得到的每个候选抓取动作的评估值S，对所有候选抓取动作进行排序，输出排序后的动作列表，控制机器人执行最优抓取动作，若抓取失败则回退到次优动作。

2.根据权利要求1所述的基于视觉语言动作多模态对齐策略的机器人抓取检测方法，其特征在于：所述步骤S2中预训练的PointNet++点云编码器包括多尺度点云特征提取层MSG和特征融合层SA，生成点云嵌入的公式为Fp＝SA(MSG(Xp,dim＝0))，通过公式Fp＝Align(squeeze(Fp,dim＝1),dim＝1,num＝N)对点云嵌入Fp进行扩展。

3.根据权利要求2所述的基于视觉语言动作多模态对齐策略的机器人抓取检测方法，其特征在于：所述步骤S3的具体步骤如下：S31、将每个大小为4×4的[R,T]齐次矩阵的候选抓取姿势gi展开为一维特征Xg＝[x,y,z,q0,q1,q2,q3]；

其中，x,y,z代表了平移关系，x,y,z＝T ；q0,q1,q2,q3代表了旋转矩阵的四元数；

S32、将展开后的抓取姿势特征Xg输入由多层感知机MLP组成的抓取Encoder，得到Fg，公式如下：Fg＝MLP(Xg,dim＝3)

式中，Xg为展开后的动作特征。

4.根据权利要求3所述的基于视觉语言动作多模态对齐策略的机器人抓取检测方法，其特征在于：所述步骤S4的具体步骤如下：S41、文本编码器模型对步骤S1得到的三类描述和自然语言指令进行编码，生成任务描述段落对象类描述段落抓取描述段落和语言指令的词嵌入；

S42、采用通道注意力机制SE模块对文本特征进行加权处理，得到语言文本特征Ftxt，公式如下：Ftxt＝SE(stack(Ftd,Fod,Fgd,FI,dim＝1))其中，stack将Ftd，Fod，Fgd，FI拼接为多通道的统一特征表示；

S43、对融合后的语言特征Ftxt进行通道复制操作，公式如下：Ftxt＝Align(squeeze(Ftxt,dim＝1),dim＝1,num＝N)其中，N表示候选抓取姿势集gi中抓握姿势数量，squeeze将语言特征移除多余维度后再按通道进行复制。

5.根据权利要求4所述的基于视觉语言动作多模态对齐策略的机器人抓取检测方法，其特征在于：所述步骤S6中得到融合特征Ffusion的公式如下：Ffusion＝cross_attention(Q＝Fg,K＝Fp,V＝Ftxt)其中，动作特征Fg为查询Q，点云特征Fp为键K，语言文本特征Ftxt为值V。

6.根据权利要求5所述的基于视觉语言动作多模态对齐策略的机器人抓取检测方法，其特征在于：得到每个候选抓取动作的评估值S的公式如下：S＝Sigmoid(MLP(Ffusion),dim＝‑1)。

7.根据权利要求6所述的基于视觉语言动作多模态对齐策略的机器人抓取检测方法，其特征在于：所述步骤S2中的点云嵌入

推荐专利

一种视觉-语言信息交互增益的行人重识别方法

我要求购

您有专利需要变现?

我要出售

智能匹配需求，快速出售

摘要:

权利要求书:

利索能及

友情链接

关于我们

联系我们