1.一种基于强化学习的海上无人机编队变粒度协同搜救方法,其特征在于,包括如下步骤:步骤1、初始化海面目标搜救作业区域范围,并在作业区域内部署多架无人机,形成无人机集群;
步骤2、无人机集群使用协同割草机算法执行粗粒度搜救作业,并使用数字信息素记录每个单元格的目标存在概率,将目标存在概率大于零的单元格记录为感兴趣区域;
步骤3、使用改进的数字信息素传播公式,捕捉目标在海面上的运动,并使用数字信息素更新公式实现信息融合;
步骤4、无人机集群基于变粒度搜救编队协同算法执行细粒度搜救作业,若未搜寻到海面目标,则重复执行步骤3‑步骤4,直到将作业区域内所有海面目标搜救定位完毕。
2.根据权利要求1所述基于强化学习的海上无人机编队变粒度协同搜救方法,其特征在于,所述步骤1中,将需要搜救的区域设定为一个矩形区域,该矩形区域为初始化的海上多无人机协同搜救作业区域 ;将该作业区域离散化为若干个单元格,将第 个单元格记为 ,一个单元格对应一个航路点;在作业区域 上空部署 架无人机,每架无人机使用朝向向下的摄像机作为捕捉目标的传感器;将第 架无人机的飞行高度记为 ,当前时刻第架无人机在海面上的探测半径为 ;初始化作业区域内共有 个感兴趣目标,将第 个感兴趣目标的运动过程通过随机马尔可夫状态转移模型表示为,其中 表示第 个感兴趣目标在 时刻的海面位置, 表示
第 个感兴趣目标在 时刻的海面位置, 是第 个感兴趣目标运动过程的一个非线性函数, 是第 个感兴趣目标在 时刻的过程噪声。
3.根据权利要求2所述基于强化学习的海上无人机编队变粒度协同搜救方法,其特征在于,所述步骤2中,协同割草机算法是指多架无人机根据各自的探测半径来回并排扫描作业区域的一种路径覆盖算法;记录感兴趣区域的具体过程为:步骤2.1、将作业区域 内所有单元格的数字信息素值初始化为0;
步骤2.2、每一架无人机通过摄像机的深度感知模型计算每个单元格的目标存在概率,并使用数字信息素统一记录;深度感知模型计算第 个单元格 的目标存在概率的具体公式为: (1);
其中,为时间序列; 是伯努利随机变量,表示目标检测概率; 为检测的感知位置坐标, 和 分别为感知位置的横坐标和纵坐标;为深度感知模型中的计算增量;
为 位置单元格的目标存在概率; 为中间变量,通过
计算得出, 为图像平面在 方向上的宽度; 为中间变量,通过 计算得出, 为图像平面在 方向上的宽度;和 均是超参数; 为感兴趣目标在图像中的横坐标, 为感兴趣目标在图像中的纵坐标;函数是解释摄像机检测模型深度效应的深度系数;
步骤2.3、将目标存在概率大于零的单元格记录为感兴趣区域,并将该单元格的数字信息素值更新为0.5。
4.根据权利要求3所述基于强化学习的海上无人机编队变粒度协同搜救方法,其特征在于,函数 定义如下: (2);
其中, 为感知位置与摄像机的距离; 和 均是超参数; 和 分别表示摄像机检测到感兴趣目标的最短距离和最长距离;
根据当前搜救阶段,每一架无人机的飞行高度根据期望数字信息素强度 进行自适应调整; 的值初始化为0.5;无人机飞行高度 的计算公式为: (5);
其中, 为摄像机传感器尺寸; 为摄像机镜头焦距;为方程自变量,通过求解方程得出,其中 表示式子;如果方程自变量 具有一个以上的解,采用方程自变量 的最大值作为方程的解。
5.根据权利要求4所述基于强化学习的海上无人机编队变粒度协同搜救方法,其特征在于,所述步骤3中,改进的数字信息素传播公式具体如下: (6);
其中, 表示位置为 的单元格在 时刻至 时刻的扩散;和
分别为单元格位置的横坐标和纵坐标; 为扩散的数字信息素邻居传播因子; 是邻居 单元 格的 数 量,由单 元格 的传 播 距离 决定 ,具 体计 算公 式 为; 为数字信息素强度; 表示位置为的邻居单元格在 时刻的数字信息素强度;为单元格在横向方向扩散的增减量,为单元格在纵向方向扩散的增减量;
数字信息素更新公式具体如下:
(7);
其中, 表示位置为 的单元格在 时刻的数字信息素强度; 为蒸发因子; 为传播因子; 为位置为 的单元格在 时刻的数字信息素强度; 表示由无人机采集得到的位置为 的单元格在 时刻至 时刻的额外的数字信息素。
6.根据权利要求5所述基于强化学习的海上无人机编队变粒度协同搜救方法,其特征在于,所述步骤4中,无人机集群执行细粒度搜救作业时,飞行高度需要匹配的数字信息素强度 的值是当前单元格的数字信息素强度加上0.5,根据步骤2的方法得到无人机自适应调整的飞行高度,并执行无人机集群变粒度搜救编队协同算法,得到无人机下一时刻的运动方向;变粒度搜救编队协同算法采用多智能体深度确定性策略梯度的强化学习算法进行动作决策,具体过程为:在无人机集群中,每一架无人机维护自己的Actor网络和Critic网络;定义第架无人机的Actor网络为 , 为Actor网络参数;第架无人机的Critic网络为 , 为Critic网络参数;使用基于Actor‑Critic的方法进行中心化训练去中心化执行的范式,在训练的时候,每一架无人机的Critic网络能够获得其他无人机的策略信息;第架无人机的Critic网络参数 通过最小化损失函数来更新。
7.根据权利要求6所述基于强化学习的海上无人机编队变粒度协同搜救方法,其特征在于,最小化损失函数的具体公式如下: (8);
其中, 为Critic网络参数 的损失函数;表示对随机变量的期望;符号 表示随机抽取样本;为无人机的观测信息; 为关于执行相应操作后 的下一个状态的观测信息;为抽取样本中的动作; 为抽取样本中的第架无人机的奖励值; 表示存储数据的经验回放池;表示当前时刻的目标值,; 是折扣系数; 表示第 架
无人机的目标Critic网络, 为第 架无人机的目标Critic网络参数; 表示第 架无人机的目标Actor网络, 为第 架无人机的目标Actor网络参数; 为第 架无人机的动作;
为更新Critic网络中使用的根据目标策略得到的第 架无人机的动作; 为更新Critic网络中使用的根据目标策略得到的第 架无人机的动作; 为第 架无人机在当前时间步的观测信息。
8.根据权利要求7所述基于强化学习的海上无人机编队变粒度协同搜救方法,其特征在于,第架无人机的Actor网络参数 的更新是通过执行梯度下降的方法,具体公式为: (9);
其中,符号 表示对参数进行梯度操作; 是第 架无人机的Actor网络; 为第 架无人机在当前时间步的观测信息; 是优化目标; 表示第架无人机在当前 时刻和状态 下,执行动作 得到的函数值; 为第 架无人机执行的动作;
使用滑动平均法的方式更新目标Critic网络的网络参数 和目标Actor网络的网络参数 ,具体更新公式为: (10);
其中,符号 表示更新操作;是滑动平均法的参数。
9.根据权利要求8所述基于强化学习的海上无人机编队变粒度协同搜救方法,其特征在于,所述步骤4中,每一架无人机根据当前离感兴趣区域的距离,以及与相邻无人机的距离,调整与相邻无人机的编队距离,得到下一时刻的运动方向,训练时的奖励函数具体如下: (11);
其中, 为第 架无人机获得的奖励值; 为调整第1架无人机与第2架无人机之间编队距离的动态权重; 为调整第 架无人机与第 架无人机之间编队距离的动态权重;
为当前时刻第2架无人机和第1架无人机之间的距离与期望距离的差值; 表示当前时刻第 架无人机和第 架无人机之间的距离与期望距离的差值; 为调整第1架无人机趋近感兴趣区域的动态权重; 为调整第 架无人机趋近感兴趣区域的动态权重;
表示当前时刻第1架无人机与感兴趣区域之间的距离; 表示当前时刻第架无人机与感兴趣区域之间的距离。