买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种机器人六自由度视觉目标检测DETR模型的FPGA部署系统及方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种机器人六自由度视觉目标检测DETR模型的FPGA部署系统及方法

￥25200

专利号： 2022116729923

申请人：江苏科技大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-03-02

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种机器人六自由度视觉目标检测DETR模型的FPGA部署系统的方法，其特征在于：该DETR模型包含ResNet50特征提取部分与多头注意力编码及解码部分，DETR六自由度检测FPGA模块包括2个主模块和11个从模块的共13个模块，各模块之间通过AXI‑4总线矩阵连接；其中，2个主模块分别为工作模式为DMA的PCI‑E主模块和Ultrascale+ MPSOC主模块；

从模块包括CONV 7×7,2、CONV 3×3,1、CONV 1×1,S、BRAM、MaxPooling CONV 3×3,2、RELU、Softmax、ROOT、ADD、Mult、DDR4共计11个从模块；

主模块PCI‑E DMA提供FPGA板卡与PC通信功能，分别在PC端获得图像数据后将PC端的图像数据存储至FPGA板卡的DDR从模块中，在FPGA处理图像数据后将DDR从模块中的检测结果数据存储至PC端；

主模块Ultrascale+ MPSOC用于实现DETR检测模型算法，通过分时调用各从模块，实现DETR检测模型；

从模块ROOT为开方操作，模块的输入输出数据尺寸相同；从模块ADD为加和操作，对图片数据各像素点进行加和操作；从模块Mult模块为乘操作，对数据进行相乘操作；

DDR4从模块为储存模块，PCI‑E传送的图像数据、六自由度检测结果存储在该模块中；

BRAM从模块为块RAM模块，用于分块读取DDR4中存储的图像数据，并存储模型运行过程的中间变量；

方法包括如下步骤：

步骤1，PC端首先获得图像数据后存储至FPGA板卡，再从FPGA板卡中获取图像数据；

步骤2，对图像数据进行预处理，然后进行基于ResNet50的特征提取；

步骤3，对于提取的特征数据，进行多头注意力编码；

步骤3中，多头注意力编码部分包含Encoder子步骤，Encoder子步骤中有6个一样的Encoder，数据首先经过多头注意力编码部分中的第一个Encoder子步骤，具体分步骤如下：步骤3‑1，将数据送入Encoder编码部分；

步骤3‑2，对步骤3‑1中的数据进行乘操作，再与位置编码数据相加，得到Q、K、V三个特征数据；得到的Q、K、V特征数据送入多头注意力机制Multi‑Head Self‑Attention中，UltraScale+ MPSoc主模块将数据重构，再对数据进行尺寸变换处理；

步骤3‑3，将步骤3‑2输出的特征数据与步骤3‑1中的数据相加，并进行Norm标准化操作，得到输出的特征数据；

步骤3‑4，步骤3‑3输出数据送入FFN中，经过Linear线性层得到输出的特征数据；

步骤3‑5，步骤3‑4与步骤3‑3输出的数据进行同步骤3‑3的相加机标准化操作，得到输出的特征数据；

步骤3‑6，将本次Encoder最后得到的步骤3‑5的输出特征数据，再输入下一个相同的Encoder中，再重复5次上述相同的流程，得到最终Encoder部分的输出的特征数据；

步骤4，基于编码结果，进行多头注意力解码，得到目标的六自由度位姿的旋转和平移数据；

步骤5，上述六自由度位姿旋转和平移数据存入FPGA板卡中，再发送至上位机，完成目标检测，并指导机器人进行目标六自由度抓取。

2.根据权利要求1所述的一种机器人六自由度视觉目标检测DETR模型的FPGA部署系统的方法，其特征在于：步骤1中，PC端将图像数据存储于FPGA板卡的DDR4从模块中；然后以滑动窗口方式读取DDR4从模块中的图片数据，并将读取到的像素块送入FPGA板卡的BRAM从模块。

3.根据权利要求1所述的一种机器人六自由度视觉目标检测DETR模型的FPGA部署系统的方法，其特征在于：步骤4中，多头注意力编码部分包含Decoder子步骤，Decoder子步骤中包含6个一样的Decoder，Encoder得到的数据送入多头注意力编码部分中的Decoder子步骤，具体分步骤如下：步骤4‑1，将目标查询数据送入Decoder解码部分；

步骤4‑2，对步骤4‑1中的数据进行乘操作，再与目标查询数据相加，得到Q、K、V三个特征数据；得到的Q、K、V特征数据送入多头注意力机制Multi‑Head Self‑Attention中，将数据先进行reshape操作，再对数据进行尺寸变换处理；

步骤4‑3，将步骤4‑2的特征数据与步骤4‑1中的目标查询数据相加，并进行Norm标准化操作，得到输出的特征数据；

步骤4‑4，将步骤4‑3输出数据与步骤4‑1中目标查询数据相加得到Q；步骤4‑3输出数据与步骤3‑6中Encoder最终输出和位置编码相加得到K；步骤3‑6中Encoder最终输出作为V；

将本次得到的Q、K、V送入Multi‑Head Attention中，将数据Q、K、V进行reshape操作，再对数据进行尺寸变换处理；

步骤4‑5，将步骤4‑3输出的特征数据与步骤4‑4中的目标查询数据相加，并进行Norm标准化操作，得到输出的特征数据；

步骤4‑6，步骤4‑5输出数据送入FFN，经过Linear线性层，得到输出的特征数据；

步骤4‑7，将步骤4‑5输出的特征数据与步骤4‑6输出的特征数据相加，并进行同样的Norm标准化操作，得到输出的特征数据；

步骤4‑8，将本次Decoder最后得到的步骤4‑7中的输出特征数据，再输入下一个相同的Decoder中，再重复5次上述相同的流程，6次Decoder得到的输出堆叠得到最终输出的特征数据；将最后输出的特征数据送入FFN中，预测得到目标的六自由度位姿的旋转和平移数据。