1.多智能体系统在合作竞争关系下的反同步优化控制方法,其特征在于,包括以下步骤:S1:根据多智能体系统之间的连接复杂性,确定系统的拓扑结构及拉普拉斯连接矩阵;
S2:创建自适应合作竞争强度函数,基于此,构建新的局部误差系统并重新定义合理的性能函数;
多智能体系统包括领导者与跟随者模式,每个智能体包含自身的状态信息,第i个智能体的状态信息表示为xi(k),xj(k)表示第j个智能体的状态信息,任意两个智能体之间的合作或者竞争关系分别表示为:xj(k)‑xi(k)和xj(k)+xi(k);
S3:针对多智能体系统精确模型未知的情形,采用Actor‑Critic网络结构分别近似智能体的控制动作和性能函数;
S4:Critic对Actor近似的控制动作进行评价,Actor根据Critic的评价对控制动作进行调整,整个过程使用梯度下降更新,在训练神经网络参数时加入了经验回放和目标网络技术,当神经网络参数趋于稳定时,即获取到最优反同步的控制策略;
所述S2设计自适应合作竞争强度函数时,使用改进后的DDPG算法近似未知精确模型进行多智能体系统的最优反同步控制;
所述S2中的自适应合作竞争强度函数如下:其中,sigmoid函数的表达式为
基于此,重构内部误差系统
其中gi表示追随者是否与领导者之间有信息交互,gi=1表示追随者与领导者之间有信息交互,gi=0表示无;x0(k)表示领导者的状态信息,aij表示智能体之间的连接关系,aij=1表示智能体之间是合作关系,aij=‑1表示智能体之间是竞争关系。
2.根据权利要求1所述的多智能体系统在合作竞争关系下的反同步优化控制方法,其特征在于:所述S2中的领导者与跟随者模式中设置了领导者的动态方程与跟随者的动态方程,其中:领导者的动态方程:
x0(k+1)=Ax0(k)
追随者的动态方程:
xi(k+1)=Axi(k)+Biμi(k);
其中,μi(k)表示智能体i在k时刻的控制输入,A,Bi是未知的合适维度的常数矩阵。
3.根据权利要求1所述的多智能体系统在合作竞争关系下的反同步优化控制方法,其特征在于:所述S2中设计自适应合作竞争强度函数的过程如下:基于此,重构局部误差系统,即:
因此,局部误差系统的紧凑形式为:
其中, 和 分别表示Kronecker乘积和Hadamard乘积;
In表示n维单位矩阵;
定义合理的性能函数
其中 权重矩阵Qii≥0,和
Rii>0是对称矩阵。
4.根据权利要求1所述的多智能体系统在合作竞争关系下的反同步优化控制方法,其特征在于:所述S3中采用Actor‑Critic网络结构分别近似智能体的控制动作和性能函数;
神经网络对控制动作的近似:
神经网络对性能函数的近似:
5.根据权利要求1所述的多智能体系统在合作竞争关系下的反同步优化控制方法,其特征在于:所述S4中:Critic网络:Critic网络通过动作值函数的输出来评价agent动作的好坏,对于Critic网络,由以下网络结构近似其中zci(k)=(ei(k),μi(ei(k)))是Critic网络包含动作和相关位置信息的输入向量,表示激活函数;
由差分方法:
其中 和 分别用Critic网络和目标Critic网络逼近,神经网络参数分别为Wci,now和目标是通过对Critic网络的训练使得函数 最小,此处用梯度下降方法来调整神经网络参数,因此,Critic网络的权重更新如下所示其中,βc∈(0,1]是学习率;
Actor网络:Actor网络用于近似控制策略,表示如下:其中,ei(k)是包含agent i及其邻居信息的Actor网络的输入,为了获得最优控制策略,随着,l→∞,将控制策略 用神经网络方法近似为最优目标控制策略由于上面近似方法不适应于连续动作空间,用本文所提算法因此,Actor网络的网络权重更新表示为:其中βc∈(0,1]是学习速率。