1.一种通信连通性保持约束下的水下多机器人避障装置,其特征在于:每个水下机器人均包括水下机器人主体、水声无线通讯装置及双目视觉避障装置;
所述水下机器人主体包括构成机器人主体框架的机器人承载体、包含六个推进器模块的动力系统、两两对称固定于机器人主体框架前后两侧的4块浮力材料(1)、固定安装在机器人主体框架中央的控制舱体(7)、内装供电系统的电池舱体(8)和固定安装在机器人主体框架前端底部的2个水下探照灯(2);
所述水声无线通讯装置包括水声换能器、调制解调器、通信模块、单片机微处理器和锂电池供电系统;所述水声换能器用于发送和接收通讯高频超声波;所述调制解调器用于将模拟信号转换成数字信号;所述通信模块用于进行单片机微处理器与调制解调器间的数据交换;所述单片机微处理器用于处理调制解调器发送的数据信息;所述锂电池供电系统用于水声无线通讯装置供电;
所述双目视觉避障装置由第一单目相机(5‑1)、第二单目相机(5‑2)、第三单目相机(5‑
3)和第四单目相机(5‑4)构成,所述第一单目相机(5‑1)、所述第二单目相机(5‑2)、所述第三单目相机(5‑3)和所述第四单目相机(5‑4)分别固定安装在机器人主体框架的前部正左方、正右方、正上方和正下方,用于实时捕获水下环境光学图像。
2.根据权利要求1所述的一种通信连通性保持约束下的水下多机器人避障装置,其特征在于:所述机器人承载体包括构成机器人主体框架的外侧框架的第一承载体(3‑1)、和第二承载体(3‑2)以及构成机器人主体框架的底部的第三承载体(6);所述第一承载体(3‑1)和所述第二承载体(3‑2)竖直平行设置;所述第三承载体(6)与所述第一承载体(3‑1)和所述第二承载体(3‑2)呈垂直关系,并与所述第一承载体(3‑1)和所述第二承载体(3‑2)固定连接;
所述动力系统中包含的六个推进器模块,具体是指固定安装在控制舱体(7)左右两侧的两个上升/下潜推进器(4)和与水平方向呈45°夹角固定于浮力材料(1)下方的第一承载体(3‑1)和第二承载体(3‑2)上的四个前进/后退推进器(9);所述浮力材料(1)位于上升/下潜推进器(4)的前后两侧;
所述控制舱体(7)内部包含电机驱动模块、单片机微处理器单元和微计算机图像处理单元;所述电池舱体(8)固定安装在第三承载体(6)的中间部位。
3.一种如权利要求1或2任一项所述的通信连通性保持约束下的水下多机器人避障装置的避障方法,其特征在于:包括以下步骤:步骤1,采集水下巡航任务区域环境图像和水下机器人图像,对采集图像需避障区域进行预处理并生成相应的数据集,通过深度卷积神经网络对数据集进行离线训练,将训练完毕的模型部署至每个水下机器人控制舱体(7)内的微计算机图像处理单元;
步骤2,将每个水下机器人分别部署至巡航任务区域,水下机器人通过自身搭载的双目相机实时捕获所处环境图像信息,微计算机图像处理单元通过部署的神经网络模型判断此图像是否存在避障区域,若存在避障区域,转至步骤3,若不存在转至步骤4;
步骤3,获取图像上避障区域中心像素点坐标,通过此像素点坐标计算该避障区域视差角度值;
步骤4,基于水声无线通讯装置的通信半径分别求取每个水下机器人的邻居集,之后计算每个水下机器人在其邻居集内与其它水下机器人间的通信引力场值;
步骤5,通过步骤3获取的视差角度信息以及步骤4获取的通信引力场构造此水下机器人的奖励函数,基于奖励函数构造值函数,通过深度强化学习神经网络拟合值函数;
步骤6,重复上述步骤2到步骤5直到获取最优的值函数,此时深度强化学习神经网络已收敛,将其部署至每个水下机器人上从而获取最优控制策略。
4.根据权利要求3所述的一种通信连通性保持约束下的水下多机器人避障方法,其特征在于:在步骤3中,若图像中存在避障区域,将其中心点像素坐标记为(X,Y),X和Y分别是避障区域中心点的像素横坐标、纵坐标;通过获取图像的避障区域中心像素坐标,计算出此避障区域的水平视差角度和垂直视差角度:其中,θH和θV分别为此障碍区域的水平视差角度和垂直视差角度,θT是避障视差角度阈值,θA、θB、θC和θD分别是第一单目相机(5‑1)、第二单目相机(5‑2)、第三单目相机(5‑3)、第四单目相机(5‑4)根据图像避障区域中心像素坐标计算的水平和垂直视差夹角值。
5.根据权利要求3所述的一种通信连通性保持约束下的水下多机器人避障方法,其特征在于:在步骤4中,水下机器人Um与水下机器人Un的连通函数为:T T
其中,m,n∈{1,...M},Xm=[xm,ym,zm] 和Xn=[xn,yn,zn]分别表示水下机器人Um和Un在2
世界坐标系下的位置;L(Xm,rv)={X∈R :||X‑Xm||≤rv}表示以水下机器人Um为中心的通讯半径为rv的圆形区域;通过连通函数,水下机器人Um的邻居集为:Pm={Xn·fmn(Xm)} (4)
机器人Um在其邻居集内产生的通信引力场为:
其中,dmn=||Xm‑Xn||表示水下机器人Um与水下机器人Un间的距离,rs是最大稳定通信距离。
6.根据权利要求3所述的一种通信连通性保持约束下的水下多机器人避障方法,其特征在于:在步骤5中,通过上述技术方案步骤中获取的障碍物视差角度信息以及通信引力场约束,可构造单步奖励函数计算此时策略的奖励值,奖励越大,控制策略越优;所述奖励函数如下:其中,Rm(Xm,τm)为水下机器人Um单步奖励,τm是水下机器人Um此时的控制输入,K1和K2是权重系数。
7.根据权利要求3所述的一种通信连通性保持约束下的水下多机器人避障方法,其特征在于:在步骤6中,基于步骤5中的单步奖励函数来更新值函数,值函数的定义如下:Q(Xmk,τmk)=Rm(Xmk,τmk)+γ×max Q(Xmk+1,τmk+1) (7)其中,Xmk和τmk是水下机器人Um在时间步骤k时的位置和控制输入,0<γ≤1是折扣因子;通过深度强化学习神经网络对值函数进行拟合迭代更新,重复步骤2至步骤5直到满足神经网络收敛要求;此时,通过神经网络获取最优控制策略