利索能及
我要发布
收藏
专利号: 2022116729923
申请人: 江苏科技大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-03-02
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种机器人六自由度视觉目标检测DETR模型的FPGA部署系统的方法,其特征在于:该DETR模型包含ResNet50特征提取部分与多头注意力编码及解码部分,DETR六自由度检测FPGA模块包括2个主模块和11个从模块的共13个模块,各模块之间通过AXI‑4总线矩阵连接;其中,2个主模块分别为工作模式为DMA的PCI‑E主模块和Ultrascale+ MPSOC主模块;

从模块包括CONV 7×7,2、CONV 3×3,1、CONV 1×1,S、BRAM、MaxPooling CONV 3×3,2、RELU、Softmax、ROOT、ADD、Mult、DDR4共计11个从模块;

主模块PCI‑E DMA提供FPGA板卡与PC通信功能,分别在PC端获得图像数据后将PC端的图像数据存储至FPGA板卡的DDR从模块中,在FPGA处理图像数据后将DDR从模块中的检测结果数据存储至PC端;

主模块Ultrascale+ MPSOC用于实现DETR检测模型算法,通过分时调用各从模块,实现DETR检测模型;

从模块ROOT为开方操作,模块的输入输出数据尺寸相同;从模块ADD为加和操作,对图片数据各像素点进行加和操作;从模块Mult模块为乘操作,对数据进行相乘操作;

DDR4从模块为储存模块,PCI‑E传送的图像数据、六自由度检测结果存储在该模块中;

BRAM从模块为块RAM模块,用于分块读取DDR4中存储的图像数据,并存储模型运行过程的中间变量;

方法包括如下步骤:

步骤1,PC端首先获得图像数据后存储至FPGA板卡,再从FPGA板卡中获取图像数据;

步骤2,对图像数据进行预处理,然后进行基于ResNet50的特征提取;

步骤3,对于提取的特征数据,进行多头注意力编码;

步骤3中,多头注意力编码部分包含Encoder子步骤,Encoder子步骤中有6个一样的Encoder,数据首先经过多头注意力编码部分中的第一个Encoder子步骤,具体分步骤如下:步骤3‑1,将数据送入Encoder编码部分;

步骤3‑2,对步骤3‑1中的数据进行乘操作,再与位置编码数据相加,得到Q、K、V三个特征数据;得到的Q、K、V特征数据送入多头注意力机制Multi‑Head Self‑Attention中,UltraScale+ MPSoc主模块将数据重构,再对数据进行尺寸变换处理;

步骤3‑3,将步骤3‑2输出的特征数据与步骤3‑1中的数据相加,并进行Norm标准化操作,得到输出的特征数据;

步骤3‑4,步骤3‑3输出数据送入FFN中,经过Linear线性层得到输出的特征数据;

步骤3‑5,步骤3‑4与步骤3‑3输出的数据进行同步骤3‑3的相加机标准化操作,得到输出的特征数据;

步骤3‑6,将本次Encoder最后得到的步骤3‑5的输出特征数据,再输入下一个相同的Encoder中,再重复5次上述相同的流程,得到最终Encoder部分的输出的特征数据;

步骤4,基于编码结果,进行多头注意力解码,得到目标的六自由度位姿的旋转和平移数据;

步骤5,上述六自由度位姿旋转和平移数据存入FPGA板卡中,再发送至上位机,完成目标检测,并指导机器人进行目标六自由度抓取。

2.根据权利要求1所述的一种机器人六自由度视觉目标检测DETR模型的FPGA部署系统的方法,其特征在于:步骤1中,PC端将图像数据存储于FPGA板卡的DDR4从模块中;然后以滑动窗口方式读取DDR4从模块中的图片数据,并将读取到的像素块送入FPGA板卡的BRAM从模块。

3.根据权利要求1所述的一种机器人六自由度视觉目标检测DETR模型的FPGA部署系统的方法,其特征在于:步骤4中,多头注意力编码部分包含Decoder子步骤,Decoder子步骤中包含6个一样的Decoder,Encoder得到的数据送入多头注意力编码部分中的Decoder子步骤,具体分步骤如下:步骤4‑1,将目标查询数据送入Decoder解码部分;

步骤4‑2,对步骤4‑1中的数据进行乘操作,再与目标查询数据相加,得到Q、K、V三个特征数据;得到的Q、K、V特征数据送入多头注意力机制Multi‑Head Self‑Attention中,将数据先进行reshape操作,再对数据进行尺寸变换处理;

步骤4‑3,将步骤4‑2的特征数据与步骤4‑1中的目标查询数据相加,并进行Norm标准化操作,得到输出的特征数据;

步骤4‑4,将步骤4‑3输出数据与步骤4‑1中目标查询数据相加得到Q;步骤4‑3输出数据与步骤3‑6中Encoder最终输出和位置编码相加得到K;步骤3‑6中Encoder最终输出作为V;

将本次得到的Q、K、V送入Multi‑Head Attention中,将数据Q、K、V进行reshape操作,再对数据进行尺寸变换处理;

步骤4‑5,将步骤4‑3输出的特征数据与步骤4‑4中的目标查询数据相加,并进行Norm标准化操作,得到输出的特征数据;

步骤4‑6,步骤4‑5输出数据送入FFN,经过Linear线性层,得到输出的特征数据;

步骤4‑7,将步骤4‑5输出的特征数据与步骤4‑6输出的特征数据相加,并进行同样的Norm标准化操作,得到输出的特征数据;

步骤4‑8,将本次Decoder最后得到的步骤4‑7中的输出特征数据,再输入下一个相同的Decoder中,再重复5次上述相同的流程,6次Decoder得到的输出堆叠得到最终输出的特征数据;将最后输出的特征数据送入FFN中,预测得到目标的六自由度位姿的旋转和平移数据。