利索能及
我要发布
收藏
专利号: 2024114953092
申请人: 广东工业大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种机械手臂自动化精密装配方法,其特征在于,包括:

控制3D扫描设备对整个装配环境进行扫描,得到多张目标点云数据;基于点云配准算法对所述多张目标点云数据进行处理,得到整个装配环境的3D环境数据;基于预训练的空间目标识别模型对所述3D环境数据进行物体识别,得到物体数据;所述物体数据包括待装配部件的初始空间坐标信息、装配目标位置的空间坐标信息;

控制工业摄像头对待装配部件进行实时拍照,基于图像处理模块进行目标图像实时分析,得到待装配部件的类别信息、姿态信息;

控制环境传感器采集所述待装配部件所处的环境信息,所述环境信息包括温度、光照强度以及机械手臂移动所述待装配部件的速度信息;

基于增强学习决策模型根据所述物体数据、类别信息和姿态信息生成对所述待装配部件进行装配的第一装配策略;

基于MPC算法根据所述物体数据、类别信息、姿态信息及环境信息生成对所述待装配部件进行装配的第二装配策略;

对所述第二装配策略和所述第一装配策略进行加权融合,得到目标装配策略;

根据所述目标装配策略控制所述机械手臂对所述待装配部件进行相应的装配操作。

2.根据权利要求1所述的机械手臂自动化精密装配方法,其特征在于,对所述第二装配策略和所述第一装配策略进行加权融合包括:基于预设评价指标分别对所述第一装配策略和所述第二装配策略进行评价,分别得到所述第一装配策略和所述第二装配策略两者在特定操作条件下的表现评分,所述特定操作条件由所述物体数据、类别信息、姿态信息及环境信息定义;

根据两者在特定操作条件下的表现评分动态分配所述第一装配策略对应的第一权重以及所述第二装配策略对应的第二权重;

基于所述第一权重、所述第二权重对所述第一装配策略、所述第二装配策略进行加权平均,得到所述目标装配策略。

3.根据权利要求2所述的机械手臂自动化精密装配方法,其特征在于,所述图像处理模块为图像分割与点云分析的复合算法模块;

图像分割与点云分析的复合算法模块基于所述目标图像进行特征提取,得到目标特征数据并根据所述目标特征数据确定所述待装配部件的所述类别信息、姿态信息;

基于预设变换矩阵公式结合所述工业摄像头的内参矩阵、所述目标图像对所述待装配部件在世界坐标系中的位置和姿态进行估计,得到所述待装配部件的姿态信息,所述姿态信息包括从所述世界坐标系到摄像头坐标系的旋转矩阵;

所述预设变换矩阵公式为:

其中,P是所述待装配部件在所述世界坐标系中的位置信息,R是从世界坐标系到摄像头坐标系的旋转矩阵,t是从世界坐标系到摄像头坐标系的平移向量,K是摄像头的内参矩阵,所述内参矩阵包括焦距和主点坐标,T(p)表示所述待装配部件在目标图像平面上的投影点p的齐次坐标,[R|t]是一个增广矩阵,其通过将旋转矩阵R和平移向量t组合起来形成,用于同时表示旋转和平移变换。

4.根据权利要求3所述的机械手臂自动化精密装配方法,其特征在于,基于增强学习决策模型根据所述物体数据、类别信息和姿态信息生成对所述待装配部件进行装配的第一装配策略包括:所述增强学习决策模型采用软演员‑评论家算法;所述软演员‑评论家算法包括演员网络和评论家网络;

基于演员网络根据所述物体数据、类别信息和姿态信息生成对所述待装配部件进行装配的第一装配策略。

5.根据权利要求4所述的机械手臂自动化精密装配方法,其特征在于,在根据所述目标装配策略控制所述机械手臂对所述待装配部件进行相应的装配操作之后,所述机械手臂自动化精密装配方法还包括:基于评论家网络中的奖励函数对所述机械手臂根据所述目标装配策略执行的装配操作的表现进行奖励评价,得到奖励值;

根据所述奖励值对所述评论家网络和所述演员网络进行迭代更新,得到包括更新后评论家网络和更新后演员网络的更新后增强学习决策模型;

基于所述更新后增强学习决策模型对后续所述机械手臂执行的装配操作进行控制;

所述奖励函数的公式为:

其中,d表示机械手臂的执行装配操作后的状态与目标状态之间的目标距离,Δt表示完成装配操作所需时间,e表示能量消耗,系数α为目标距离的权重参数,β为装配操作所需时间的权重参数,γ是能量消耗的权重参数,α,β和γ用于调整奖励函数中各项的影响力,R(s,a)表示在s状态下采取动作a后所获得的奖励值。

6.根据权利要求5所述的机械手臂自动化精密装配方法,其特征在于,根据所述奖励值对所述评论家网络和所述演员网络进行迭代更新,得到包括更新后评论家网络和更新后演员网络的更新后增强学习决策模型包括:根据所述评论家网络中的价值函数对所述机械手臂根据所述目标装配策略执行的装配操作的表现进行价值评价,得到目标价值;

基于所述目标价值定义所述评论家网络的损失函数;

基于所述损失函数计算所述评论家网络的目标梯度,并基于随机梯度下降算法根据所述目标梯度迭代更新所述评论家网络的网络参数,得到所述更新后评论家网络;

根据所述目标价值计算所述演员网络的策略梯度,并基于随机梯度下降算法根据所述策略梯度迭代更新所述演员网络的网络参数,得到所述更新后演员网络;

基于所述更新后评论家网络和所述更新后演员网络替换所述评论家网络和所述演员网络,得到包括所述更新后评论家网络和所述更新后演员网络的更新后增强学习决策模型;

随机梯度下降算法的公式为:

其中,θ表示网络参数,η是学习率,▽θQ(s,a∣θ)是对目标函数Q(s,a∣θ)的梯度,表示调整θ以增加在状态s下采取行动a后所获得的所述目标价值,目标价值依赖于网络参数θ,θold在更新之前的网络参数,θnew表示更新后的网络参数。

7.根据权利要求1‑6任一项所述的机械手臂自动化精密装配方法,其特征在于,基于MPC算法根据所述物体数据、类别信息、姿态信息及环境信息生成对所述待装配部件进行装配的第二装配策略包括:基于MPC算法的第一成本函数根据所述物体数据、类别信息、姿态信息及环境信息生成对所述待装配部件进行装配的第二装配策略;

所述第一成本函数的公式为:

其中,J(x,u)是第一成本函数的总成本,总成本为系统状态序列x和控制输入序列u的函数,xk表示在时间步k的系统状态,uk表示在时间步k的控制输入,xN表示在预测范围N中任一时间步的系统状态,Q和R是权重矩阵,用于平衡状态误差和控制动作的成本,Q矩阵用于加权状态变量的偏差,反映对系统状态接近期望目标的偏好,R矩阵用于加权控制输入,反映对控制动作经济成本或能量消耗的偏好,P是终端权重矩阵,用于在预测范围结束时评估最终状态与目标状态之间的差异,N是预测范围,T表示转置矩阵、min表示最小化操作。

8.根据权利要求7所述的机械手臂自动化精密装配方法,其特征在于,所述机械手臂自动化精密装配方法包括:基于第二成本函数对所述机械手臂的运行参数和/或图像分割与点云分析的复合算法的属性参数进行调整,以保证装配操作的准确度,所述第二成本函数设置于遗传算法或模拟退火算法;

第二成本函数的公式为:

其中,Ω代表成本函数,θ代表参数集,Tc、Ec和Qc分别代表周期时间、能耗和质量控制的成本,λ1,λ2,λ3是调节各因素重要性的权重,周期时间Tc的优化目标为减少每个装配周期内的总时间,能耗Ec的优化目标为降低系统运行的平均功耗,质量控制Qc的优化关注于减少不合格品的产出比例。

9.根据权利要求8所述的机械手臂自动化精密装配方法,其特征在于,还包括:根据物体数据、类别信息、姿态信息及环境信息判断所述机械手臂在执行装配操作的过程中是否存在异常;

在确定存在异常的情况下,执行告警并输出维修方案。

10.一种机械手臂自动化精密装配装置,其特征在于,包括:

控制单元,用于控制3D扫描设备对整个装配环境进行扫描,得到多张目标点云数据;用于控制工业摄像头对待装配部件进行实时拍照;用于控制环境传感器采集待装配部件所处的环境信息,所述环境信息包括温度、光照强度以及机械手臂移动所述待装配部件的速度信息;

处理单元,用于基于点云配准算法对所述多张目标点云数据进行处理,得到整个装配环境的3D环境数据;用于基于预训练的空间目标识别模型对所述3D环境数据进行物体识别,得到物体数据;所述物体数据包括待装配部件的初始空间坐标信息、装配目标位置的空间坐标信息;用于基于图像处理模块进行目标图像实时分析,得到待装配部件的类别信息、姿态信息;

第一生成单元,用于基于增强学习决策模型根据所述物体数据、类别信息和姿态信息生成对所述待装配部件进行装配的第一装配策略;

第二生成单元,用于基于MPC算法根据所述物体数据、类别信息、姿态信息及环境信息生成对所述待装配部件进行装配的第二装配策略;

融合单元,用于对所述第二装配策略和所述第一装配策略进行加权融合,得到目标装配策略;

装配单元,用于根据所述目标装配策略控制所述机械手臂对所述待装配部件进行相应的装配操作。