1.一种多联盟非合作博弈的多智能体状态控制方法,其特征在于:包括以下步骤:步骤1:构建由多个联盟组成的多联盟非合作博弈模型;多个联盟之间存在等式耦合约束;所述等式耦合约束表示为:所有联盟的决策变量之和等于期望目标值;
在每个所述联盟内部均设有多个智能体,并指定其中一个智能体作为通讯智能体,用于与邻居联盟通信;
在每个所述智能体内部设置有动态事件触发条件;
当任意一智能体的动态事件触发条件被满足时,对于任意一联盟内部,各智能体之间的通信关系被触发,以此来获取触发时刻邻居智能体对其所在联盟内其他智能体的伪梯度之和的估计,和向邻居智能体传递触发时刻自身对其所在联盟内其他智能体的伪梯度之和的估计;所述邻居智能体对其所在联盟内其他智能体的伪梯度之和的估计为邻居智能体的代价函数对其所在联盟内其他智能体的决策变量的估计求偏导后进行求和得到;同时各联盟之间的通信关系被触发,通过联盟中的通讯智能体来获取触发时刻邻居联盟对多联盟非合作博弈模型中其他联盟的决策变量的估计和触发时刻邻居联盟对多联盟非合作博弈模型中其他联盟的等式耦合约束相应的全局拉格朗日乘子的估计,以及联盟中的通讯智能体向邻居联盟传递触发时刻自身对多联盟非合作博弈模型中其他联盟的决策变量的估计和触发时刻自身对多联盟非合作博弈模型中其他联盟的等式耦合约束相应的全局拉格朗日乘子的估计;
采用通信拓扑有向图 来表示各联盟之间的通信关系,其中 表示N个联盟组成的集合; 为边集合,表示联盟之间的通信链路; 是权重邻接矩阵,aij表示联盟i和联盟j构成的边的权重;
当没有智能体的动态事件触发条件被满足时,对于任意一智能体,根据上一触发时刻得到的邻居智能体对其所在联盟内其他智能体的伪梯度之和的估计更新自身对所在联盟内其他智能体的伪梯度之和的估计;对于任意一联盟,根据上一触发时刻得到的邻居联盟对多联盟非合作博弈模型中其他联盟的决策变量的估计更新自身对多联盟非合作博弈模型中其他联盟的决策变量的估计,以及上一触发时刻得到的邻居联盟对多联盟非合作博弈模型中其他联盟的等式耦合约束相应的全局拉格朗日乘子的估计更新自身对多联盟非合作博弈模型中其他联盟的等式耦合约束相应的全局拉格朗日乘子的估计;
步骤2:判断多联盟非合作博弈模型中是否存在动态事件触发条件被满足的联盟,若存在,则在动态事件触发条件被满足的联盟内部,各智能体间的通信关系被触发,利用获取到的当前触发时刻邻居智能体对其所在联盟内其他智能体的伪梯度之和的估计,得到所在联盟的伪梯度之和的估计;同时,各联盟之间的通信关系被触发,利用获取到的当前触发时刻邻居联盟对其他联盟的决策变量的估计、当前触发时刻邻居联盟对其他联盟的等式耦合约束相应的全局拉格朗日乘子的估计和每个联盟的伪梯度之和的估计,得到自身对其他联盟的决策变量的估计和自身对其他联盟的等式耦合约束相应的全局拉格朗日乘子的估计,转入步骤3;
若不存在,则各智能体更新自身对所在联盟内其他智能体的伪梯度之和进行估计,各联盟更新自身对其他联盟的决策变量进行估计和对其他联盟的等式耦合约束相应的全局拉格朗日乘子进行估计,并重新执行步骤2;
步骤3:根据步骤2得到的所在联盟的伪梯度之和的估计、自身对其他联盟的决策变量的估计和自身对其他联盟的等式耦合约束相应的全局拉格朗日乘子的估计,用广义纳什均衡寻求策略,寻找得到所有智能体的广义纳什均衡解;
步骤4:依据所有智能体的广义纳什均衡解,控制各智能体。
2.根据权利要求1所述的一种多联盟非合作博弈的多智能体状态控制方法,其特征在于:所述的内部的各智能体之间的通信关系,包括:采用通信子图 来表示联盟i中智能体k与其它智能体之间的通信;
mi表示联盟i中智能体的个数, 表示联盟i中的智能体集合。
3.根据权利要求2所述的一种多联盟非合作博弈的多智能体状态控制方法,其特征在于:所述的通信子图 按照以下步骤生成:采用通信拓扑无向图 表示联盟i内部智能体之间的通信关系, 表示N个联盟组成的集合;
引入干扰图 来描述联盟i内部各智能体之间的交互;
获取在干扰图 中不是智能体k的邻居的节点,将在干扰图 中不是智能体k的邻居的节点称作该类节点;
从通信拓扑无向图 中删除该类节点,保留其余节点及其边,生成联盟i中智能体k的通信子图
4.根据权利要求3所述的一种多联盟非合作博弈的多智能体状态控制方法,其特征在于:所述的利用获取到的当前触发时刻邻居智能体对其所在联盟内其他智能体的伪梯度之和的估计,得到多联盟非合作博弈模型中每个联盟的伪梯度之和的估计,包括:每个联盟内部均执行以下操作步骤为:
采用下式示出的估计算法,使用获取到的当前触发时刻邻居智能体对其所在联盟内其他智能体的伪梯度之和的估计,对其所在联盟的伪梯度之和进行估计:式中:
表示联盟i中智能体j对智能体k的伪梯度之和的估计;
表示联盟i中智能体j对智能体k的第二辅助变量;
是联盟i中智能体k的通信子图中的邻居个数;
表示联盟i中智能体j的代价函数;
表示联盟i对自身的决策变量的估计;
表示联盟i对除自身以外其他所有联盟的决策变量的估计;
表示联盟i对联盟i中智能体k的决策变量的估计;
表示 的一阶导数;
l表示联盟i中的智能体l;
表示联盟i中智能体k在干扰图中邻居的集合;
表示联盟i中智能体j在干扰图中邻居的集合;
表示联盟i的通信拓扑无向图 的邻接矩阵元素;
表示触发时刻联盟i中智能体j对智能体k的伪梯度之和的估计;
表示触发时刻联盟i中智能体l对智能体k的伪梯度之和的估计。
5.根据权利要求4所述的一种多联盟非合作博弈的多智能体状态控制方法,其特征在于:所述的利用获取到的当前触发时刻邻居联盟对其他联盟的决策变量的估计、当前触发时刻邻居联盟对其他联盟的等式耦合约束相应的全局拉格朗日乘子的估计和每个联盟的伪梯度之和的估计,得到自身对其他联盟的决策变量的估计和自身对其他联盟的等式耦合约束相应的全局拉格朗日乘子的估计,具体操作步骤为:采用下式示出的控制算法,使用当前触发时刻邻居联盟对其他联盟的决策变量的估计、当前触发时刻邻居联盟对其他联盟的等式耦合约束相应的全局拉格朗日乘子的估计和每个联盟的伪梯度之和的估计,对自身对其他联盟的决策变量进行估计和自身对其他联盟的等式耦合约束相应的全局拉格朗日乘子进行估计:式中:
表示 的一阶导数;
d表示参数,d>0;
α表示可调参数,α>0;
表示联盟
表示通信拓扑有向图 的邻接矩阵元素;
表示触发时刻联盟i对自身决策变量的估计;
表示触发时刻联盟 对联盟i的决策变量的估计;
表示ui的一阶导数;ui表示联盟i对等式耦合约束 相应的全局拉格朗日乘子的估计;
Ai表示联盟i对自身决策变量的估计的权重;
ai表示联盟i的期望目标;
表示联盟i对自身决策变量的估计;
ε表示可调参数,ε>0;
表示触发时刻ui的值;
表示触发时刻 的值, 表示联盟 对等式耦合约束相应的全局拉格朗日乘子的估计;
vi表示联盟i的第一辅助变量;
表示vi的一阶导数。
6.根据权利要求5所述的一种多联盟非合作博弈的多智能体状态控制方法,其特征在于:所述的动态事件触发条件为:若时刻 时,智能体的状态信息满足以下不等式时,取的最小值作为下一触发时刻,记为 所述智能体的状态信息包括:对其所在联盟内其他智能体的伪梯度之和的估计、对其他联盟的决策变量的估计和对其他联盟的等式耦合约束相应的全局拉格朗日乘子的估计;
该动态事件触发条件表示为:
式中:
inf{·}表示取下限函数;
i i
表示为误差 的转置, 表示触发时刻y的值;y表示联盟i的决策变量的估计;
表示为误差 的转置,
表示为误差 的转置,
i
σ表示中间变量;
i
χ表示中间变量;
表示触发时刻 的值, 其中, 表示联盟 对自身的决策变量的估计, 表示联盟 对除自身以外其他所有联盟的决策变量的估计;
表示触发时刻vi的值;
表示 为 和 的堆栈形式, 表示触发时刻联盟i中智能体j对智能体k的伪梯度之和的估计, 表示触发时刻联盟i中智能体j对智能体k的第二辅助变量的估计;
i
η表示内部动态变量。
7.根据权利要求6所述的一种多联盟非合作博弈的多智能体状态控制方法,其特征在于:所述的广义纳什均衡寻求策略,表示为:i i
其中: 表示 的一阶导数;G (y)表示联盟i中所有智能体对自身伪梯度之和的估计的堆栈形式,表示为: 其中, 表示联盟i中第mi个智能体对自身伪梯度之和的估计。