利索能及
我要发布
收藏
专利号: 2022104152510
申请人: 安徽工程大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.基于深度学习的机器人目标识别与运动检测方法,其特征在于:包括下列步骤:步骤S1、通过融合注意力机制和位置编码的实例分割网络对潜在动态物体所在区域添加掩膜;

步骤S2、利用场景中实例分割掩膜外的静态特征点对相机位姿进行估计;

步骤S3,由于相机位姿与物体位姿投影在同一张图像中具有耦合关系,通过相机位姿估计出物体位姿变换矩阵;

步骤S4,求出潜在运动物体上所有点运动视差中位数,并根据位姿优化过程得到运动不确定性微分熵,由运动视差与微分熵之间关系判断出物体特征点运动状态,从而判断整个物体运动状态;

步骤S5,剔除其中的动态物体,并修复剔除区域的静态背景,根据信息熵与交叉熵筛选出其中的高质量特征点用于位姿估计与地图构建。

2.根据权利要求1所述的基于深度学习的机器人目标识别与运动检测方法,其特征在于:所述步骤S1中,多注意力模块由通道注意力机制和空间注意力机制两个子网络组成,将输入特征图F分别在通道维度和空间维度进行连接,并将对应获取的通道维度特征图F'与空间维度特征图F″进行concat融合得到输出F”';以加强被遮挡物体部分的像素权重,提高遮挡物体的识别率,通道注意力机制作用为将特征图中各层通道分配相应权重,空间注意力其主要作用为增加特征图中被遮挡位置像素值权重,经过学习不断调整各个权重值,进而引导网络关注遮挡部分所在区域,由此对潜在动态物体所在区域添加掩膜。

3.根据权利要求2所述的基于深度学习的机器人目标识别与运动检测方法,其特征在于:所述步骤S1中,将H×W×C的输入特征图F输入到通道注意力机制中,对特征图进行全局注意平均池化和最大池化操作,从而得到特征图每个通道的信息,通过平均池化和最大池化获得的特征Favg与Fmax经过全连接层FC模块加强通道之间关联性,并对各通道权重进行重新分配,更好地对遮挡特征进行学习,经过通道注意力机制获得的输出fv计算方式如下所示:fv=σ((Favg+Fmax)ηβ)

其中,σ表示Sigmoid函数,η表示ReLU函数,β为全连接层的参数,最后用fv对输入特征图F进行逐层通道加权得到通道维度特征图F',H、W和C分别表示高、宽和通道数;

步骤S1中,还将输入特征图F输入空间注意力机制,通过平均池化和最大池化后进行concat融合形成H×W×2特征图fc,再通过3×3×1卷积层和Sigmoid函数处理得到空间注意图fu,其计算方式如下所示:

fu=σ(c(fc))

其中,fu为空间注意图,fc为H×W×2特征图,σ表示Sigmoid函数,c为3×3×1卷积网络,将fu与输入特征图F连接得到经空间注意力加权后的空间维度特征图F″。

4.根据权利要求1‑3中任一所述的基于深度学习的机器人目标识别与运动检测方法,其特征在于:所述步骤S1中提出一种相对位置编码算法,该算法使用点积计算输入元素之间相关性分数eij,其计算方式如下所示:其中,eij为输入元素之间相关性分数,σ为可训练参数初始值为1, 为二维相对Q K

位置权重,且与transformer网络中的query参数交互;W 、W为可训练参数矩阵;Pi、Pj为图像块的输入,i、j为输入图像块序号,对应前述的像素Ui,Ij,dz表示输出矩阵维度;将相对位置编码融入Transformer网络构建融合相对位置编码Transformer模块,通过像素间距离重新分配像素权重,加强遮挡物体与被遮挡物体之间边界语义信息,提高被遮挡动态物体分割边界的精确度。

5.根据权利要求4所述的基于深度学习的机器人目标识别与运动检测方法,其特征在于:所述步骤S2中,在已知摄像机标定参数和特征点深度前提下,将空间中静态点m从参考帧Fk‑1关联到后一帧Fk,其计算方式为:‑1

mk=Δ[HcΔ Ik‑1(mk‑1,dk‑1)]

‑1

其中,Δ和Δ 分别对应投影函数和反向投影函数,该函数是由相机内参与相机外参构成,Hc∈SE(3)为相机姿态的相对变换矩阵,SE(3)为李代数矩阵;Ik‑1为空间静态点投影到Fk‑1中3D点,坐标为(mk‑1,dk‑1),其中mk‑1为该点在帧Fk‑1中的2D像素坐标,dk‑1为该点在帧Fk‑1中的深度;mk为空间静态点投影到Fk中2D像素坐标;

相机位姿求解方法通过重投影误差与最小二乘法计算估计相机位姿,计算重投影误差如下:

‑1

e(Hc)=m′k‑Δ[Ik‑1(mk‑1,dk‑1)Δ Hcexp(hc)]其中,e(Hc)为Hc的重投影误差,hc∈se(3)为相机姿态相对变换向量,由Hc变换得到;m′k为前一帧Fk‑1中2D像素坐标mk‑1投影到当前帧的2D像素坐标,exp(·)为从李代数向量变换到李群矩阵三维变换。

6.根据权利要求5所述的基于深度学习的机器人目标识别与运动检测方法,其特征在于:所述步骤S3中,依据相机运动估计物体位姿变换矩阵Hc∈SE(3),将潜在动态对象建模为一个带有位姿变换矩阵Ho的实体,将空间中动态点 从参考帧Fk‑1关联到后一帧Fk,其计算方式如下:其中,Hc∈SE(3)为相机运动估计物体位姿变换矩阵,Ho∈SE(3)为物体姿态的相对变换矩阵,Ik′‑1为空间中动态点 投影到Fk‑1帧中3D点, 为深度图像帧Fk‑1中2D像素坐标,‑1为帧Fk‑1中坐标点深度, 为该点 在帧Fk中的2D点坐标,Δ和Δ 分别对应投影函数和反向投影函数,该函数是由相机内参与相机外参构成;

通过重投影误差与最小二乘法计算得到物体位姿变换矩阵Ho,其计算公式如下所示:其中,e(Ho)为重投影误差,ho∈se(3)为物体姿态相对变换向量,由Ho变换得到,nb为相应残差运算所需3D点投影至2D点数量, 为前一帧Fk‑1中2D像素坐标 投影到当前帧的

2D像素坐标,exp(·)为从李代数向量变换到李群矩阵三维变换;该方法通过将误差值最小化得出物体变换矩阵。

7.根据权利要求6所述的基于深度学习的机器人目标识别与运动检测方法,其特征在于,所述步骤S4中,采用二维图像测量判断物体状态,假设特征点 为静态投影点,则该投影点与其真实投影点 的像素距离d为动态视觉误差,计算图像潜在动态物体上像素点动态视觉误差d的中位数 表示为物体动态视觉误差;的计算方式如下所示:在非线性姿态优化阶段,设定不确定性误差满足K维高斯分布,则它的微分熵计算方式如下所示:其中,G(x0)为微分熵,x0为输入量,w为由上一帧传播得到的移动概率, 为残差方程的导数, 为协方差矩阵, 为光度重投影误差,u表示K高斯分布维度;基于此将物体动态偏差与一个由微分熵引导并随熵缓慢变大的动态阈值Δd=H(G(x))进行对比,H(G(x))即为此构建的函数,若 判断该物体为动态物体。

8.根据权利要求7所述的基于深度学习的机器人目标识别与运动检测方法,其特征在于,所述步骤以待修复关键帧Ft为起点,关键帧图像根据两帧之间网格流依次与待修复关键帧图像对齐,当所有关键帧图像与待修复帧图像对齐的情况下,将待修复关键帧图像的缺失区域向前索引所对应像素,若向前索引到一个对应像素,则直接进行缺失区域像素补全,若索引到多个对应像素值,则对索引到的像素取平均值再进行缺失区域像素补全。

9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1‑8中任一所述的基于深度学习的机器人目标识别与运动检测方法的步骤。

10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于:所述处理器执行所述计算机程序时实现如权利要求1‑8中任一所述的基于深度学习的机器人目标识别与运动检测方法的步骤。