买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于RGB-D图像的方形吊装物姿态估计方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于RGB-D图像的方形吊装物姿态估计方法

￥12500

专利号： 2024101311942

申请人：武汉科技大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-05-07

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于RGB‑D图像的方形吊装物姿态估计方法，其特征在于，具体步骤包括：S1、使用深度相机采集方形吊装物不同时刻的RGB‑D图像数据，所述RGB‑D图像数据包括方形吊装物的RGB图像数据和RGB图像内部各个像素点相对于深度相机的深度信息图；

S2、使用图像分割算法对RGB图像数据中方形吊装物进行图像分割，分割出方形吊装物掩膜的像素，并根据像素点的深度信息确定通过方形吊装物掩膜中各个像素的深度信息，并依据方形吊装物的掩膜和掩膜内各个像素的深度信息通过相机内参矩阵转化为三维的点云信息；

S3、估计点云中各点的法线，确定当前时刻关键帧i与相邻前一时刻关键帧i‑1，并处理得到第i与i‑1个关键帧中长方体三个面的法向量，对掩膜中的所有点法线向量进行平均化处理得到中心点，并以此识别点云的结构特征；

S4、使用由第i个和第i‑1个关键帧得到的法向量和中心点计算旋转矩阵R和平移向量T；

S5、通过激光雷达或超声波传感器采集关于环境中方形吊装物体的位置、形状物理属性的信息，并结合激光雷达或超声波传感器数据与RGB‑D图像，生成综合环境感知值数学模型，并以此判断传感器数据质量以及数据融合程度；根据实时RGB‑D数据动态生成并调整物体3D模型，以判断3D模型与实际物体形状接近程度；

S6、引入强化学习技术，增强模型在复杂环境中的学习和适应能力，实现通过分析RGB‑D图像数据，确定吊装物的当前姿态属于预先划分的哪个区间，从而估计其精确的值，并基于值所在划分区间，指导吊装机械或操作员调整吊装物的位置；

S7、设定深度信息图上的预设坐标为（u，v），使用透视投影和仿射变换计算像素坐标系与世界坐标系；

S8、对得到的法线的单位法向量进行聚类，将球面的点的三维坐标转化为使用极角和方向角表示的球面坐标，分别对聚类出的不同类的数据进行二维核密度估计找到密度最大的区域，确定每个面朝向的法向量，应用旋转矩阵和旋转向量之间的转换公式计算旋转和平移矩阵，得到三维姿态变换矩阵。

2.根据权利要求1所述的一种基于RGB‑D图像的方形吊装物姿态估计方法，其特征在于：所述使用深度相机采集方形吊装物不同时刻的RGB‑D图像数据，所述RGB‑D图像数据包括方形吊装物的RGB图像数据和RGB图像内部各个像素点相对于深度相机的深度信息，具体包括以下内容，将输入的RGB‑D图像调整至网络要求的分辨率，并将RGB‑D图像输入到SAM算法模型中；

SAM算法模型通过多层卷积神经网络提取特征，再运用深度学习技术进行语义分割，识别方形物体；从分割结果中提取方形物体区域，生成掩膜，掩膜具体为遮挡或突出显示图像中特定区域的二进制图像。

3.根据权利要求2所述的一种基于RGB‑D图像的方形吊装物姿态估计方法，其特征在于：使用图像分割算法对RGB图像数据中方形吊装物进行图像分割，分割出方形吊装物掩膜的像素，并根据像素点的深度信息确定通过方形吊装物掩膜中各个像素的深度信息，并依据方形吊装物的掩膜和掩膜内各个像素的深度信息通过相机内参矩阵转化为三维的点云信息具体逻辑包括，使用掩膜从深度图中提取目标物体的深度信息；通过深度相机厂家提供的API导出相机的内参矩阵：；

其中是主点在图像平面上的x坐标，主点是图像平面上的光学轴与图像中心的交点，与是相机的焦距分别在水平方向和竖直方向上的缩放因子；

将掩膜内各个像素通过相机内参矩阵转换为三维空间中的点云，对每个像素点应用转换公式：；

其中：P是点云中的三维坐标（X,Y,Z），点云中的每个点表示为，且，N表示点云总数；

是相机内参矩阵的逆；

D（p）是像素点p的深度值；

是齐次坐标下的像素位置（x,y,1）。

4.根据权利要求3所述的一种基于RGB‑D图像的方形吊装物姿态估计方法，其特征在于：所述估计点云中各点的法线，确定当前时刻关键帧i与相邻前一时刻关键帧i‑1，并处理得到第i与i‑1个关键帧中长方体三个面的法向量，对掩膜中的所有点法线向量进行平均化处理得到中心点，并以此识别点云的结构特征具体逻辑包括，三个面的法向量表示为：，其中j依次表示当前关键帧中相邻三个面，

获取三维点云数据后对每个点云数据点采用K近邻KNN算法找到临近点集；对每个点的邻域点集进行协方差矩阵计算，然后进行特征值分解；特征值最小对应的特征向量作为该点的法线方向；生成每个点的法线估计；

法线估计公式：

对于点云中的每个点，首先找到其K近邻点集；

对每个点及其近邻点集，构建协方差矩阵：；

其中，是近邻点集的均值；

对协方差矩阵进行特征值分解，找到对应于最小特征值的特征向量作为点的法线方向；

对所有点的法线向量进行平均化处理以得到中心点的法线，且与表示相邻i与i‑1关键帧的中心点法线值；

；

综合以上步骤，我们得到以下公式：

；

其中，表示协方差矩阵最小特征值对应的特征向量；

字符解释：

：点云中的一个数据点；

N：点云中点的总数；

K：每个点的K近邻点数；

：点的第j个近邻点；

：点的近邻点集的均值；

：点及其近邻点集构成的协方差矩阵；

：协方差矩阵最小特征值对应的特征向量，代表点的法线方向；

：所有点的法线向量平均化处理后得到的对应第i个关键帧的中心点法线；

值域解释：

的值域通常为单位向量，代表点云的平均法线方向，这个方向有助于识别点云的整体方向性和结构特征；

具体的，

引入一个额外的分类函数F( )，这个函数将的值映射到特定的结构特征类别；

；

其中，表示的模长，if表示并列关系的“如果”；

类别说明：

类别A：对应于较低的模长范围，代表点云具有较弱的方向性或不规则的结构，这意味着点云是非常分散的或者形状复杂；

类别B：中等模长范围，指点云具有中等程度的方向性和一定的结构特征，这通常表示点云形状较为规则，但仍含有一定的复杂性；

类别C：高模长范围，表示点云具有强烈的方向性和明确的结构特征，这意味着点云呈现出清晰的线性或规则的几何形状。

5.根据权利要求4所述的一种基于RGB‑D图像的方形吊装物姿态估计方法，其特征在于：所述使用由第i个和第i‑1个关键帧得到的法向量和中心点计算旋转矩阵R和平移向量T包括以下内容，获取法线估计和物体中心点；并使用法线估计确定物体的朝向；通过比较关键帧中的法线方向，计算物体的旋转；

计算旋转矩阵R和平移向量T使得物体从一个关键帧姿态变换到另一个公式：；

其中（ , )是两关键帧的点云；

输出：旋转矩阵R和平移向量T。

6.根据权利要求5所述的一种基于RGB‑D图像的方形吊装物姿态估计方法，其特征在于：所述结合激光雷达或超声波传感器数据与RGB‑D图像，提供更全面的环境感知，并以此判断传感器数据质量以及数据融合程度的功能具体逻辑包括，分别采集激光雷达数据和RGB‑D图像数据；确保激光雷达数据和RGB‑D图像数据时间上的一致性，并对数据进行时间标记；

空间校准：对激光雷达和RGB‑D相机进行空间校准，确定它们之间的相对位置和姿态；

数据预处理：对激光雷达数据进行噪声过滤和地面点移除；并对RGB‑D图像数据进行深度图像和彩色图像的配准；

数据融合：结合激光雷达或超声波传感器数据与RGB‑D图像，生成综合环境感知值数学模型公式，；

数学公式解释：

F(x,y,z）代表在点云坐标（x,y,z）的综合环境感知值；

是一个积分表达式，用于融合激光雷达数据；L(x,y,z）代表激光雷达在点（（x,y,z））的强度值，是一个衰减函数，表示信号与距离的关系，其中d（x,y,z,S）代表点（x,y,z）与传感器S之间的距离，是衰减系数；

是一个求和表达式，用于融合RGB‑D图像数据，代表在点（x,y,z）的RGB‑D图像中的反射率，是一个复杂信息处理函数，处理图像并结合先验知识P；

N是RGB‑D图像的数量，是用于平衡不同模态数据贡献的常数；

值域解释：

F(x,y,z）的值域取决于融合后的数据值，这个值越高，表示在该点的环境感知越准确，反之则感知能力较低；

F(x,y,z）的理论值域是非负的，在0到1之间，具体取决于传感器数据和图像处理函数的性质进行适应性调整。

7.根据权利要求6所述的一种基于RGB‑D图像的方形吊装物姿态估计方法，其特征在于：所述根据实时RGB‑D数据动态生成或调整物体3D模型，以判断3D模型与实际物体形状接近程度具体逻辑包括，实时数据获取：连续获取RGB‑D图像数据；

设（R,G,B）分别表示RGB‑D数据中的红色、绿色、蓝色通道，D表示深度数据，设M表示3D模型，t为时间变量，考虑物理约束和几何规则，设计以下公式：；

其中，为三维重构函数，用于处理RGB‑D数据并生成初步的3D模型；为物理约束函数，为几何规则函数；

函数定义：

：为基于RGB‑D数据的三维重构函数，它能够处理输入的RGB‑D数据并生成三维模型，具体实现涉及复杂的图像处理和计算机视觉技术；

；

其中，转换 RGB‑D 数据为点云，则利用这些点云来建立三维模型；

：物理约束函数，考虑了物体在特定时间点的物理特性，如重力、质量、弹性；

；

其中，，，代表了不同的物理因素；

：几何规则函数，确保模型的几何形状符合特定的规则和约束；

；

其中，，代表了不同的几何规则；

值域和含义：

公式的值域将取决于M（t）的实际计算结果，M（t）的值域取决于RGB‑D数据的变化和物理、几何约束的应用，具体含义如下：较低的M（t）值：表示3D模型与实际物体形状相差较大，或者物理和几何约束没有得到很好的满足；

较高的M（t）值：表示3D模型与实际物体形状非常接近，物理和几何约束得到了良好的满足，且M（t）值的取值范围设立在0至1范围内。

8.根据权利要求7所述的一种基于RGB‑D图像的方形吊装物姿态估计方法，其特征在于：所述引入强化学习技术，增强模型在复杂环境中的学习和适应能力，实现通过分析RGB‑D图像数据，确定吊装物的当前姿态属于预先划分的哪个区间，从而估计其精确的值，并基于值所在划分区间，指导吊装机械或操作员调整吊装物的位置具体逻辑包括，RGB‑D图像数据：这是基本且关键的数据类型，RGB‑D图像包括颜色信息RGB和深度信息D(p)，可以从不同角度和不同光照条件下捕捉吊装物体的图像；这些图像提供了关于物体形状、大小、姿态和相对于摄像机的位置的重要信息；

环境特征数据：包括光照条件、背景噪声、附近的物体；

物体标注数据：对RGB‑D图像中吊装物体的准确标注，包括物体的边界框、中心点、姿态角度；

操作数据：当涉及到自动化吊装，吊装操作的数据，包括吊钩位置、速度、吊装路径需要代入考虑；

历史数据和模拟数据：历史的吊装操作记录，包括成功和失败的案例，以及通过模拟生成的数据；

反馈和校正数据：操作过程中的反馈数据，包括物体在吊装过程中的实际移动轨迹与预期的偏差，可用于进一步优化算法；

物体物理属性数据：吊装物体的质量、材质、表面纹理信息；

定义以下变量：

(R,G,B)：分别代表RGB‑D图像中的红色、绿色、蓝色强度值；

D：代表深度信息；

E：表示环境特征数据，包括光照和背景噪声；

L：代表物体标注数据，包括边界框的位置和大小；

O：表示操作数据，包括吊钩的位置和速度；