买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于强化学习的海上无人机编队变粒度协同搜救方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于强化学习的海上无人机编队变粒度协同搜救方法

￥22200

专利号： 2023117341394

申请人：山东科技大学

专利类型：发明专利

专利状态：已下证

更新日期：2025-10-27

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于强化学习的海上无人机编队变粒度协同搜救方法，其特征在于，包括如下步骤：步骤1、初始化海面目标搜救作业区域范围，并在作业区域内部署多架无人机，形成无人机集群；

步骤2、无人机集群使用协同割草机算法执行粗粒度搜救作业，并使用数字信息素记录每个单元格的目标存在概率，将目标存在概率大于零的单元格记录为感兴趣区域；

步骤3、使用改进的数字信息素传播公式，捕捉目标在海面上的运动，并使用数字信息素更新公式实现信息融合；

步骤4、无人机集群基于变粒度搜救编队协同算法执行细粒度搜救作业，若未搜寻到海面目标，则重复执行步骤3‑步骤4，直到将作业区域内所有海面目标搜救定位完毕。

2.根据权利要求1所述基于强化学习的海上无人机编队变粒度协同搜救方法，其特征在于，所述步骤1中，将需要搜救的区域设定为一个矩形区域，该矩形区域为初始化的海上多无人机协同搜救作业区域；将该作业区域离散化为若干个单元格，将第个单元格记为，一个单元格对应一个航路点；在作业区域上空部署架无人机，每架无人机使用朝向向下的摄像机作为捕捉目标的传感器；将第架无人机的飞行高度记为，当前时刻第架无人机在海面上的探测半径为；初始化作业区域内共有个感兴趣目标，将第个感兴趣目标的运动过程通过随机马尔可夫状态转移模型表示为，其中表示第个感兴趣目标在时刻的海面位置，表示

第个感兴趣目标在时刻的海面位置，是第个感兴趣目标运动过程的一个非线性函数，是第个感兴趣目标在时刻的过程噪声。

3.根据权利要求2所述基于强化学习的海上无人机编队变粒度协同搜救方法，其特征在于，所述步骤2中，协同割草机算法是指多架无人机根据各自的探测半径来回并排扫描作业区域的一种路径覆盖算法；记录感兴趣区域的具体过程为：步骤2.1、将作业区域内所有单元格的数字信息素值初始化为0；

步骤2.2、每一架无人机通过摄像机的深度感知模型计算每个单元格的目标存在概率，并使用数字信息素统一记录；深度感知模型计算第个单元格的目标存在概率的具体公式为： (1)；

其中，为时间序列；是伯努利随机变量，表示目标检测概率；为检测的感知位置坐标，和分别为感知位置的横坐标和纵坐标；为深度感知模型中的计算增量；

为位置单元格的目标存在概率；为中间变量，通过

计算得出，为图像平面在方向上的宽度；为中间变量，通过计算得出，为图像平面在方向上的宽度；和均是超参数；为感兴趣目标在图像中的横坐标，为感兴趣目标在图像中的纵坐标；函数是解释摄像机检测模型深度效应的深度系数；

步骤2.3、将目标存在概率大于零的单元格记录为感兴趣区域，并将该单元格的数字信息素值更新为0.5。

4.根据权利要求3所述基于强化学习的海上无人机编队变粒度协同搜救方法，其特征在于，函数定义如下： (2)；

其中，为感知位置与摄像机的距离；和均是超参数；和分别表示摄像机检测到感兴趣目标的最短距离和最长距离；

根据当前搜救阶段，每一架无人机的飞行高度根据期望数字信息素强度进行自适应调整；的值初始化为0.5；无人机飞行高度的计算公式为： (5)；

其中，为摄像机传感器尺寸；为摄像机镜头焦距；为方程自变量，通过求解方程得出，其中表示式子；如果方程自变量具有一个以上的解，采用方程自变量的最大值作为方程的解。

5.根据权利要求4所述基于强化学习的海上无人机编队变粒度协同搜救方法，其特征在于，所述步骤3中，改进的数字信息素传播公式具体如下： (6)；

其中，表示位置为的单元格在时刻至时刻的扩散；和

分别为单元格位置的横坐标和纵坐标；为扩散的数字信息素邻居传播因子；是邻居单元格的数量，由单元格的传播距离决定，具体计算公式为；为数字信息素强度；表示位置为的邻居单元格在时刻的数字信息素强度；为单元格在横向方向扩散的增减量，为单元格在纵向方向扩散的增减量；

数字信息素更新公式具体如下：

(7)；

其中，表示位置为的单元格在时刻的数字信息素强度；为蒸发因子；为传播因子；为位置为的单元格在时刻的数字信息素强度；表示由无人机采集得到的位置为的单元格在时刻至时刻的额外的数字信息素。

6.根据权利要求5所述基于强化学习的海上无人机编队变粒度协同搜救方法，其特征在于，所述步骤4中，无人机集群执行细粒度搜救作业时，飞行高度需要匹配的数字信息素强度的值是当前单元格的数字信息素强度加上0.5，根据步骤2的方法得到无人机自适应调整的飞行高度，并执行无人机集群变粒度搜救编队协同算法，得到无人机下一时刻的运动方向；变粒度搜救编队协同算法采用多智能体深度确定性策略梯度的强化学习算法进行动作决策，具体过程为：在无人机集群中，每一架无人机维护自己的Actor网络和Critic网络；定义第架无人机的Actor网络为，为Actor网络参数；第架无人机的Critic网络为，为Critic网络参数；使用基于Actor‑Critic的方法进行中心化训练去中心化执行的范式，在训练的时候，每一架无人机的Critic网络能够获得其他无人机的策略信息；第架无人机的Critic网络参数通过最小化损失函数来更新。

7.根据权利要求6所述基于强化学习的海上无人机编队变粒度协同搜救方法，其特征在于，最小化损失函数的具体公式如下： (8)；

其中，为Critic网络参数的损失函数；表示对随机变量的期望；符号表示随机抽取样本；为无人机的观测信息；为关于执行相应操作后的下一个状态的观测信息；为抽取样本中的动作；为抽取样本中的第架无人机的奖励值；表示存储数据的经验回放池；表示当前时刻的目标值，；是折扣系数；表示第架

无人机的目标Critic网络，为第架无人机的目标Critic网络参数；表示第架无人机的目标Actor网络，为第架无人机的目标Actor网络参数；为第架无人机的动作；

为更新Critic网络中使用的根据目标策略得到的第架无人机的动作；为更新Critic网络中使用的根据目标策略得到的第架无人机的动作；为第架无人机在当前时间步的观测信息。

8.根据权利要求7所述基于强化学习的海上无人机编队变粒度协同搜救方法，其特征在于，第架无人机的Actor网络参数的更新是通过执行梯度下降的方法，具体公式为： (9)；

其中，符号表示对参数进行梯度操作；是第架无人机的Actor网络；为第架无人机在当前时间步的观测信息；是优化目标；表示第架无人机在当前时刻和状态下，执行动作得到的函数值；为第架无人机执行的动作；

使用滑动平均法的方式更新目标Critic网络的网络参数和目标Actor网络的网络参数，具体更新公式为： (10)；

其中，符号表示更新操作；是滑动平均法的参数。

9.根据权利要求8所述基于强化学习的海上无人机编队变粒度协同搜救方法，其特征在于，所述步骤4中，每一架无人机根据当前离感兴趣区域的距离，以及与相邻无人机的距离，调整与相邻无人机的编队距离，得到下一时刻的运动方向，训练时的奖励函数具体如下： (11)；

其中，为第架无人机获得的奖励值；为调整第1架无人机与第2架无人机之间编队距离的动态权重；为调整第架无人机与第架无人机之间编队距离的动态权重；

为当前时刻第2架无人机和第1架无人机之间的距离与期望距离的差值；表示当前时刻第架无人机和第架无人机之间的距离与期望距离的差值；为调整第1架无人机趋近感兴趣区域的动态权重；为调整第架无人机趋近感兴趣区域的动态权重；

表示当前时刻第1架无人机与感兴趣区域之间的距离；表示当前时刻第架无人机与感兴趣区域之间的距离。

推荐专利

一种基于协同编队系统的海底地形勘察系统及工作方法

我要求购

您有专利需要变现?

我要出售

智能匹配需求，快速出售

摘要:

权利要求书:

利索能及

友情链接

关于我们

联系我们