1.一种基于强化学习的多智能体协同动态目标拦截决策方法,其特征在于,包括如下步骤:步骤1、初始化环境和智能体;
步骤2、对拦截目标的状态进行预测;
步骤3、基于多智能体的预测性拦截成本对全局最优任务进行分配;
步骤3具体为:构建基于预估拦截时间为成本的全局最优任务分配模型, 代表智能体i拦截目标j的预估成本,成本是动态计算的预估拦截时间,其计算方式如下: (1)
其中, , 分别为智能体i和目标j的当前位置向量;‖ ‖表示欧几里得范数; 为目标j当前的位置速度; 为智能体的最大速度; 是一个可选的任务切换惩罚项,用于提升分配方案的稳定性;分子项表示智能体i与目标j之间的直线距离;分母项考虑目标速度在两者连线方向上的投影,通过分母项动态评估目标的拦截难度:其值越小,代表此时目标速度与智能体最大速度越接近,智能体追上目标的难度越大;
步骤4、为每个智能体构建一个基于近端策略优化算法PPO的自主控制模型,并设计未来碰撞感知的状态表征向量;将状态表征向量输入智能体的神经网络中,输出动作指令;
步骤5、设计多目标的奖励函数,用于在训练过程中引导智能体进行行为上学习;
步骤6、重复执行步骤2至步骤5,直到所有拦截目标都被拦截或整个回合达到最大仿真步长,完成多智能体的协同动态目标拦截决策。
2.根据权利要求1所述的一种基于强化学习的多智能体协同动态目标拦截决策方法,其特征在于,步骤1具体为:初始化环境包括N架智能体的初始位置和速度,M个目标的初始状态;为M个目标分别初始化M个独立的卡尔曼滤波器,并为N架智能体分别初始化N个独立的、具有相同网络结构的PPO智能体;PPO智能体的Actor‑Critic网络结构为包含两个隐藏层的多层感知。
3.根据权利要求1所述的一种基于强化学习的多智能体协同动态目标拦截决策方法,其特征在于,步骤2具体为:在每个时间帧dt,对于每个未被拦截的目标j,将调用目标对应的卡尔曼滤波器中的predict()方法,根据t‑1时刻的最优估计值,计算出t时刻的先验估计和先验协方差;确定距离目标j最近的智能体i作为观测者,根据智能体i和目标j的真实位置,模拟一次带噪声的观测过程,生成观测值;其中,观测噪声的标准差与智能体和目标的距离d成正比;据此计算出观测噪声协方差矩阵 ;调用KF中的update()方法,结合观测值修正先验估计,得到t时刻的后验及最优估计状态。
4.根据权利要求1所述的一种基于强化学习的多智能体协同动态目标拦截决策方法,其特征在于,步骤4具体为:为每个智能体构建一个基于近端策略优化算法PPO的自主控制模型;并通过裁剪目标函数来保证训练过程的稳定,PPO裁剪目标函数: (2)
其中,为策略网络的参数; 代表对时间步t的期望; 是新旧策略的概率比; 是优势函数估计;clip()为裁剪函数,将 的值限定在区间 内;是超参数,定义裁剪的范围;通过使用min()函数取未裁剪项 和裁剪项 中的较小值,保证策略更新的稳定性;
设计未来碰撞感知的状态表征向量Si:
(3)
其中, 表示碰撞风险标志位,智能体通过射线投射的方式预测当前速度方向上是否会与障碍物发生碰撞,如果是,则 为1,否则为0;ttti为归一化的预估碰撞时间,vesc为推荐规避矢量;
将状态向量Si输入到智能体的Actor‑Critic网络中,Actor网络输出动作指令的均值μ,结合可学习的对数标准差,构建正态分布Normal(μ, ),std表示标准差;从正态分布中采样一个动作 ;Critic网络输出当前状态的价值估计;将采样得到的动作 通过Tanh函数映射到[‑1,1]区间,得到最终的归一化动作 。
5.根据权利要求1所述的一种基于强化学习的多智能体协同动态目标拦截决策方法,其特征在于,步骤5具体为:所有智能体执行归一化动作 ,乘以最大加速度,并通过物理引擎更新其在环境中的状态,得到在t+1时刻的位置和速度;将转移信息存入对应智能体的经验回放缓冲区,当任意一个智能体的缓冲区中积累的数据量达到预设阈值,该智能体执行一次学习更新: (4)
其中, 表示进程奖励, 表示速度对齐奖励, 表示末端势场奖励, 表示避障惩罚, 和 表示时间与能耗惩罚, 表示各项的权重,k∈[1,6]。
6.根据权利要求5所述的一种基于强化学习的多智能体协同动态目标拦截决策方法,其特征在于,所述转移信息包括状态向量、归一化动作、状态价值估计和碰撞风险标志。
7.一种计算机装置,包括存储器、处理器及存储在存储器上的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现权利要求1所述方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1所述方法的步骤。
9.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1所述方法的步骤。