买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于强化学习的无人机与无人船长续航协同搜索方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于强化学习的无人机与无人船长续航协同搜索方法

￥22200

专利号： 2024114735420

申请人：山东科技大学

专利类型：发明专利

专利状态：已下证

更新日期：2025-10-27

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于强化学习的无人机与无人船长续航协同搜索方法，其特征在于，包括如下步骤：步骤1、在任务区域中部署多个无人机和无人船，形成协同搜索系统并进行初始化；

步骤2、将任务区域离散化为网格，无人机和无人船使用概率图模型记录每个单元格的目标存在概率；

步骤3、无人机在任务过程中受其电池容量的限制，无人机能量不足时向无人船发送充电请求，无人船根据无人机电池能量和目标存在概率规划路径，最小化无人船移动距离；

所述步骤3中，无人机在执行概率图更新过程中由于能量消耗和电池容量的限制不足以支撑任务完成，因此采用远程无线充电的方式，无人船发射波束成形能量给无人机，无人机获得的能量取决于它与无人船之间的距离，计算为：其中，为距离计算；和分别表示时隙t无人船i和无人机m的位置坐标；h表示无人机的飞行高度；

无人机在时隙t获得的能量为：

其中，ψi,m(t)为一个二进制变量；0<ξ<1为能量转换效率；δ为一个时隙的持续时间；Pc是无人船的能量传输功率；

假设无人机的最大能量容量为Emax，则经过无人船充电服务后，无人机在时隙t的剩余能量为：其中，为无人机在时隙t‑1的剩余能量；

无人机的能耗分为通信能耗和飞行能耗两类，将通信能耗固定为Pcom，无人机在匀速飞行时的飞行能耗Pf为：其中，κ1、κ2、κ3为不同的无人机相关常数；v和分别表示无人机的速度和推力；

时隙t无人机能耗Em(t)为：

其中，dt表示对t求导；

无人机在时隙t+1的剩余能量为：

无人机m在时隙t的剩余能量满足其中，Eth为无人机最小保留能量，则无人机m的充电紧急度计算为：

如果当前无人机的剩余能量低，它具有高充电紧急度，无人船优先为具有高充电紧急度的无人机提供服务；

无人船的运动伴随着自身的能量消耗，寻找最优路径的目的是最小化无人船的平均移动距离；假设能量消耗与移动距离之间存在线性关系，将定义为无人船i在时隙t处的移动距离，表示为：其中，表示时隙t‑1无人船i的位置坐标；

无人船i的能量消耗如下：

其中，ρ是一个系数；Res为无人船在海上航行时的阻力；因此N艘无人船直到总时隙T的能量消耗ES为：在搜索中优化无人船的运动轨迹，使无人机的能量保持在阈值以上，延长无人机工作时间，需要优化一系列参数，包括无人船的运动能耗以及无人机的能量利用率，将优化问题表述为：其中，表示对整个公式的期望值；表示无人机在搜索任务中的能量利用率，β为二元决策变量；c为一个常数；St表示无人机在时隙t处的搜索区域面积；C1、C2、C3、C4为不同的约束；约束C1表示无人船在时隙t移动的距离小于等于能移动的最大距离lmax；约束C2表示无人机的剩余能量的范围；约束C3确保每架无人机在时隙t最多被一个无人船充电；约束C4保证无人船i和无人船j之间的距离大于等于安全距离以避免碰撞；

步骤4、无人船采用基于多智能体深度确定性策略梯度方法的协同优化调度算法优化自身运动轨迹，为无人机提供充电服务并进行目标搜索；若未搜索到海面目标，则重新执行步骤2；若无人机能量不足以完成任务时，重复执行步骤3‑步骤4，直到通过目标概率识别出目标位置；

所述步骤4中，无人船集群根据当前状态获得的无人机位置、能量信息、目标概率信息以及相邻无人船的状态信息采用基于多智能体深度确定性策略梯度算法进行强化学习，从而完成动作决策，优化轨迹；具体过程为：在无人船集群中，每一艘无人船维护自己的Actor网络和Critic网络，定义分别为无人船i的Actor网络、Critic网络，无人船i的Actor网络参数和Critic网络参数分别为θi和ωi，采用Actor‑Critic方法进行中心化训练和分布式执行，在训练时，每一艘无人船的Critic网络能够获得其他无人船的策略信息；

ωi通过最小化损失函数Loss(ωi)来更新，具体公式如下：其中，为对D中样本的期望值；D表示经验回放池；是一个中心化的动作价值函数；x为当前时刻无人船的状态信息；a＝(a1,a2,...,aN)为当前时刻N艘无人船采取的动作集合，aN为当前时刻无人船N采取的动作；表示当前时刻的目标值，ri为当前时刻无人船i的奖励值，γ为折扣系数，为下一

状态的动作价值函数，x′为执行相应动作a′＝(a′1,a′2,...,aj′,...,a′N)后x的下一状态信息，a ′j为无人船j在下一状态的动作，oj为无人船j的观测信息；

表示N艘无人船更新价值函数中使用的目标策略的集合；为无人船j下一状态的Actor网络；

θi执行梯度下降来更新，具体公式为：

其中，表示对θi求导；J(·)表示优化目标；为对经验回访池D中随机抽取状态信息x的期望值，x～D表示从经验回放池中随机抽取的一个状态信息；经验回放池D由元组(x,x′,a1,…,aN,r1,…,rN)表示，r＝{r1,…,rN}为N艘无人船获得的奖励集合，rN为当前时刻无人船N的奖励值；ai为当前时刻无人船i采取的动作；oi为无人船i当前的观测值；表示对ai求导；

软更新无人船i的目标Critic网络参数ωi′和目标Actor网络参数θi′，具体公式如下所示：其中，←表示软更新操作；ε表示软更新系数；

在每艘无人船执行一步动作后，设置一个总奖励函数，具体如下：定义表示无人船i在时隙t执行相应任务时的能量消耗奖励，每个无人船消耗的能量由它移动的距离决定，公式为：定义表示无人船i在时隙t向无人机充电时获得的奖励，公式如下：其中，是一个正系数；当无人船接收到来自多个无人机的充电请求时，会根据每个无人机的充电紧急度进行优先排序；通过评估当前的无人机能量水平，无人船确定哪个无人机具有最高的充电紧急度，优先对具有最高的充电紧急度的无人机进行充电服务；

定义表示无人船i在时隙t的搜索奖励，搜索奖励引导无人船在有限的时间内探索高概率的区域，以获得最高的利润；搜索奖励公式为：如果无人船不能及时给任何无人机充电，并且剩余的电池能量低于Eth，则用Rl表示对无人机的惩罚；定义Rd表示无人船i和无人船j之间发生碰撞时的惩罚，具体公式如下：综上，总奖励函数表示如下：

其中，为无人船i在时隙t的总奖励；

所述基于多智能体深度确定性策略梯度方法的协同优化调度算法的具体过程为：步骤4.1、初始化参数，包括θi、ωi、ωi′、θi′、D、 T；为回合数量；

步骤4.2、进行外部回合循环；具体过程为：

步骤4.2.1、随机分配无人机和无人船的位置；

步骤4.2.2、初始化时隙t一个随机过程用于动作探索；

步骤4.2.3、将无人船作为智能体，获取所有智能体的初始观测值；

步骤4.2.4、进行内部时间步循环；具体过程为：

步骤4.2.4.1、根据当前策略每个无人船选择一个动作，设当前时刻无人船i采取的动作为：步骤4.2.4.2、执行动作集合a＝(a1,a2,...,aN)，获得下一状态信息x′和N艘无人船的奖励集合r＝(r1,r2,...,rN)；

步骤4.2.4.3、将(x,a,r,x′)存储到经验回放池D中；

步骤4.2.4.4、更新观测值：x←x′；

步骤4.2.4.5、进行内部循环；

步骤4.2.4.5.1、从经验回放池D中随机抽取小批量样本(xj,aj,rj,x′j)；其中，xj为当前时刻无人船j的状态信息；aj为当前时刻无人船j采取的动作；rj为当前时刻无人船j的奖励值；x′j为无人船j执行动作后的下一状态信息；

步骤4.2.4.5.2、根据公式(13)的最小化损失函数来更新每个无人船的Critic网络参数；

步骤4.2.4.5.3、根据公式(14)执行梯度下降更新每个无人船的Actor网络参数；

步骤4.2.4.6、若每个智能体都更新完成，则结束内部循环；

步骤4.2.4.7、根据公式(15)更新每个无人船的目标Critic网络参数和目标Actor网络参数；

步骤4.2.5、若优化调度时间超时，结束内部时间步循环；

步骤4.3、若达到外部循环步数，结束外部回合循环。

2.根据权利要求1所述基于强化学习的无人机与无人船长续航协同搜索方法，其特征在于，所述步骤1中，将任务区域设定为一个长为宽为的矩形区域，部署M架无人机在高度为h的任务区域上空飞行；N艘无人船配备无线充电设备在任务过程中充当移动充电站；M架无人机和N艘无人船组成一个跨域无人集群协同执行搜索任务；无人机上有一个接收能量的天线，无人船安装发射天线；无人机监测自身的能量水平，当无人机能量不足时发送充电请求，无人船则会向无人机靠近，无线充电设备启动，无人船显示正在充电；无人机与无人船之间以及无人船与无人船之间信息传输通过无线电方式的通信链路建立初始连接。

3.根据权利要求1所述基于强化学习的无人机与无人船长续航协同搜索方法，其特征在于，所述步骤2中，将任务区域划分为Lx×Wy个网格，Lx表示任务区域在水平方向上划分的网格数量，Wy表示任务区域在垂直方向上划分的网格数量；第k个网格的中心坐标为gk＝(xk,yk)，xk∈{1,2,...,Lx}，yk∈{1,2,...,Wy}，k∈{1,2,...,Lx×Wy}，xk表示第k个网格在水平方向上的坐标，yk表示第k个网格在垂直方向上的坐标；设置θk表示第k个网格中存在目标或不存在目标，θk＝1表示第k个网格中存在目标，θk＝0表示第k个网格中不存在目标；

无人机和无人船根据贝叶斯规则动态地更新任务区域的概率图，具体的更新公式为：其中，Γk(t)、Γk(t‑1)分别表示时隙t和时隙t‑1生成的概率图；和f分别为检测概率和虚警概率。