利索能及
我要发布
收藏
专利号: 202111004160X
申请人: 南京信息工程大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-07-01
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种面向海空协同观测任务的多智能体控制方法,其特征在于,该方法包括如下步骤:

步骤1.建立初步的采样区域,先从太空卫星观测到海面上中尺度涡的生成,然后派出一艘无人艇从中尺度涡的最外侧沿着直线行驶至中心处,并沿途收集观测数据,建立起初步的采样区域;

步骤2.对采样区域进一步筛选,在无人艇到达中尺度涡的中心时,把每个区域内所采样到的水温数据以梯度形式继续处理,由高向低排序,无人艇在按照步骤1行驶到中心过程中,搭载的温度传感器每隔一段时间采集一次水温,无人艇在按照步骤1行驶到达中心时,通过降序排列法筛选出水温变化梯度值大于阈值的区域,即具有观测价值区域;

步骤3.搜寻具有观测价值区域内的等温线,根据已有无人艇的数量确定具有观测价值区域的数量,每一艘无人艇搜寻一个区域内的等温线,并记录等温线的位置数据,在搜寻过程中,采用数据驱动和深度确定性策略梯度算法对无人艇的航姿进行控制,已确保其始终行驶在等温线上;

步骤4.无人机对所有无人艇上观测数据进行采集,发送给服务器分析,构建中尺度涡观测模型,派遣无人机前往中尺度涡的中心,采用多智能体深度确定性策略梯度算法引导无人机与各艘无人艇在规定时间域内汇合,实现无人机一次飞行即可完成对所有无人艇上观测数据的采集任务,所述多智能体深度确定性策略梯度算法记为MADDPG。

2.根据权利要求1所述的一种面向海空协同观测任务的多智能体控制方法,其特征在于,步骤2中的水温变化梯度的表达式为:其中,Ki∈{K1,K2,...,Kn}表示水温,n表示采样次数,设定无人艇每隔一分钟采集一次水温,则水温变化梯度值为:

3.根据权利要1或2所述的一种面向海空协同观测任务的多智能体控制方法,其特征在于,步骤3中的无人艇搜寻等温线算法的步骤如下:步骤3‑1.输入目标轨迹,根据已有的等温线数据集拟合出多条不规则形状的等温线,并作为目标航迹;

步骤3‑2.利用DDPG算法对无人艇控制系统数据进行学习,训练出相关的数据驱动式DDPG控制器;

步骤3‑3.输出实际轨迹。

4.根据权利要3所述的一种面向海空协同观测任务的多智能体控制方法,其特征在于,步骤3‑2中DDPG算法的马尔可夫决策过程和网络结构如下:步骤A.马尔可夫决策模型包括状态空间、动作空间、回报函数:步骤A‑1.定义状态空间,选择的状态输入包括两部分,第一部分是无人艇的状态信息,即无人艇相对于地面坐标系的状态向量 并进一步计算出与等温线夹角θ;第二部分是温度传感器返回的环境状态信息,即温度传感器采集当前位置的水温数据K,根据水温变化判断无人艇是否航行在等温线上,状态空间的定义如下:其中,x、y、分别代表了无人艇在地面坐标系中的坐标和航向角;

步骤A‑2.定义动作空间,假设在本次任务中无人艇在航行过程中线速度保持不变,无人艇的动作即为角速度ω,同时,假设动作值的范围是a1=‑60°到a13=60°,并以10°的增量变化,则动作空间的定义如下:

A=[a1,a2,...,a13]步骤A‑3.定义回报函数,为了生成到达目标轨迹的最短路径,即保证其每一步的动作能够使得无人艇行驶在等温线上,设计了以下的一组回报函数:其中,rarrive=2为达到奖励函数,K0表示无人艇在出发点水域所采集到的温度,Kt代表当前t时刻无人艇所在位置的水温;如果Kt与K0的绝对差值小于等于阈值Tgoal,则说明无人艇在等温线搜寻范围之内,激活该函数;同时,为了引导无人艇不断朝向等温线航行,设置了一个转向函数:

rdirection=w1(θt‑1‑θt)+w2*|Kt‑1‑Kt|其中,Kt‑1代表了t‑1时刻无人艇所在区域的水温,θt代表了当前无人艇航向与等温线的夹角,w1代表奖励系数,w2代表惩罚系数,两者值的大小均根据调参过程进行调整,若执行上一时刻的动作使得无人艇未行驶等温线上,调整惩罚系数进行惩罚;若执行上一时刻的动作使得无人艇行驶在等温线上,调整奖励系数给予一定的奖励;

步骤B.设计算法网络结构,结合以上的状态空间、动作空间以及回报函数,设计深度DDPG算法的策略网络和评价网络结构:步骤B‑1.策略网络采用一个输入与一个输出的深度卷积网络,其输入是环境状态信息,即水温变化梯度信息以及无人艇当前的运动状态信息,输出是无人艇的动作指令,即角速度,角速度的变化导致无人艇航向的变化,该结构具有两个隐藏层,第一层设置节点数为

400,激活函数为softplus,第二层设置节点数是300,激活函数为tanh;

步骤B‑2.评估网络采用两个输入与一个输出的深度卷积神经网络,其输入包括环境状态信息和策略网络输出的动作,输出则是当前策略的评价指标,即动作的Q值,进一步来说,首先,将状态信息输入到评估网络中,该网络第二层设置的节点数为400,第三层设置的节点数为300,同时,将动作矩阵也输入到评价网络中,其第二层的神经元节点数为300,最后,将状态空间矩阵输入的网络的第三层神经元与动作矩阵输入的网络的第二层神经元节点合并,经过ReLU激活函数,得出输出值,网络中所有神经元节点之间的连接方式均为全连接方式。

5.根据权利要4所述的一种面向海空协同观测任务的多智能体控制方法,其特征在于,步骤4中所述无人机对无人艇观测数据进行采集的工作步骤如下:步骤C.MADDPG算法的马尔可夫决策过程:步骤C‑1定义状态空间:

S={dt(USV1,UAV),dt(USV2,UAV),...,dt(USVn,UAV)}其中,dt(USVi,UAV)表示t时刻第i个无人艇与无人机之间的距离,一共有n个无人艇;

其中,(xgoal,ygoal)当前时刻无人机的位置坐标,(x,y)表示无人艇的位置坐标为;

步骤C‑2定义动作空间:

其中,at表示表示t时刻第i个无人艇与无人机汇合的动作空间为:UAV

其中, at 分别代表t时刻无人艇和无人机的线速度;

步骤C‑3.定义回报函数:

其中,rconverge表示汇合奖励函数,其取值是一个正值,dmax表示无人机能够采集无人艇USV1

上观测数据的最大距离,当USV1与无人机之间的dt 距离小于等于dmax时,即视为汇合成功,激活该函数;rdistance表示距离奖励函数,其用于引导USV1和无人机以最短时间、最小能量损的汇合;以当无人机和无人艇的距离越近,奖励越多为原则进行奖励,距离奖励函数表示为:

UAV UAV

rdistance=λ1(dt‑1‑dt)‑λ2|vt‑1 ‑vt |其中,λ1表示距离奖励系数,dt表示当前采样获得的USV1与无人机的距离,dt‑1表示上一步的距离,将dt‑1与上dt做差,如果差值为正,则说明USV1与无人机的距离越来越小时,上一步的动作使得两者接近,通过调整奖励系数给予一定的奖励;反之,说明上一步的动作使得UAV

两者远离,通过调整惩罚系数给予一定的惩罚,λ2表示惩罚系数,vt 表示t时刻无人机的线速度,当上一刻与当前的线速度变化大于预设阈值时,通过调整惩罚系数给予一定的惩罚;

步骤D.采用集中式训练、分布式执行的方式对多智能体系统进行训练:步骤D‑1.定义第i个智能体的随机策略梯度:π

其中,J(·)表示总奖赏,ρ(s)表示折现状态分布,θi是表示第i个智能体策略的参数,s表示全局观测量,ai表示第i个智能体的动作,πi表示第i个智能体的控制策略, 是第i个策略网络的参数,oi表示第i个智能体的观测值,即状态; 表示关于贴现状态分布ρ(s)的期望值, 是分值函数,πi(ai|on)表示一个在状态on对于各个动作ai的条件概率分布, 表示所有智能体的状态动作值函数集合,该值的输出是通过将所有智能体的动作和全局环境状态输入策略网络和评价网络中得到的;

步骤D‑2.定义n个智能体的确定性策略梯度:μ

其中,函数J是用于衡量一个确定性策略μi的表现,θi 是第i个确定性策略网络的参数,用一个卷积神经网络对μ函数进行模拟,这个网络被称为策略网络,ai=μi(oi)是一个观测值空间到动作值空间的映射,D表示经验回放池,用于存储所有智能体与环境交互的经验数据,每一条经验数据都是由一组(s,s′,a1,...,an,r1,...,rn)组成;

步骤D‑3.定义评价网络逼近的目标函数:其中,r代表回报函数,s′表示s状态下执行动作a后的下个状态,γ是折扣因子,用于计μ

算未来的累计回报期望,μj、oj分别表示目标策略和目标观测值, 是由θi复制而来的目标策略网络参数在集中式训练方式下,采用时间差分思想以及目标网络思想对评价网络参数进行更新;

步骤D‑4.计算损失函数:

其中,a′表示智能体在状态s′下所执行的动作;

步骤D‑5.定义最大化策略集合的整体回报:其中,unif(1,K)是一个从1到K均匀分布的数值集合,第i个智能体的策略μi是由k个子策略的集合组成,在每个回合的训练中只采用一个子策略 并对每个子策略k再构建一(k)

组子经验回放池Di ,Ri(s,a)表示全局奖励函数;

步骤D‑6.定义每个子策略的更新梯度:其中, 表示动作值函数的梯度,输入所有智能体的动作a={a1,...,an}以及环境状态量s, 是子策略 下观测值空间到动作值空间的映射。