1.基于协同训练模型改进IQL的多智能体协同控制方法,其特征在于包括以下步骤:S1、对传统生成式对抗网络GAN进行改进,建立跨域生成对抗网络CoGAN,步骤包括:S11、构建各个智能体的动态过程,其中包括两个智能体之间的相互作用;
S12、对于两个智能体之间的相互作用进行优化;
S13、获取各个智能体在训练过程中的对抗损失函数;
S14、建立关于反向平衡器的虚拟控制系统;
S2、构建鱼鳞预测算法,并鱼鳞预测算法将引入CoGAN中;
S3、基于鱼鳞预测算法和CoGAN,建立非线性协同系统,完成对深度协同对抗训练模型DCATM的构建,即为完成对IQL的改进,获得基于改进IQL的多智能体协同控制方法;
所述的S11中,构建各个智能体的动态过程的步骤为:S111、应用场景下的智能体数量设定为N,智能体集合agent表示为;第i个智能体对应的状态变量为 ,;每个智能体对应一个生成器网络 ,用于生成该智能体在当前状态下采取的动作策略,将每个智能体的智能体状态 作为输入,并生成每个智能体的动作策略 ,其中, 的参数表示为 ,则 ;
S112、第i个智能体的动态过程表示为:(1);
式中, 是第i个智能体的状态增长率,用于反映智能体在多智能体协同控制中的动态行为; 为智能体j对i的作用系数,即为两个智能体之间的相互作用, 且j≠i;
和 分别为第i个智能体的环境容量、自我抑制系数和外部影响系数;t为时间;
所述的S12中,对两个智能体之间的相互作用,即为对 进行优化的方法为:对于第i个智能体,其余N‑1个智能体对第i个智能体的综合影响表示为 ,外部环境对第i个智能体的影响表示为 ,此时的 表示为:(2);
式中, 表示外部因素对第i个智能体的作用系数;
所述的S13中,获取各个智能体在训练过程中的对抗损失函数的步骤为:S131、设定判别器网络为 ,通过 评估 生成的动作策略的质量; 接收的真实动作记为 , 输出的动作策略即为 ;将 和 均作为 的输入, 的参数用 表示,则:(3);
式中, 为 的判别输出; 为 中的真实动作判别输出; 为 中的生成动作判别输出; 用于调节 和 ; 以及 不断调节 和 ;
S132、第i个智能体在训练过程中的对抗损失函数 表示为:(4);
式中, 为真实动作个数; 为噪声分布个数; 和分别为 和 的期望; 是关于 以及 的判别; 是关于 的判别;
所述的S14中,建立关于反向平衡器的虚拟控制系统的过程为:S141、将 的虚拟控制器设定为 ; 是智能体在环境容量下,输出动作和真实动作的反向平衡器, 是在 中引入的生成器网络参数,用于形成虚拟控制器;
S142、关于反向平衡器的虚拟控制系统表示为:(5);
式中, 为第i个智能体的反向平衡器; = ,即同样表示智能体在环境容量下, 输出动作和真实动作的反向平衡器;
S143、公式(5)使得:(6);
(7);
式中, 和 是第i个智能体的初始判别器网络和初始输出动作; 是动作策略为 时的初始判别器网络; 是关于 渐近增长率的上限;
S144、由于 是 的输入,因此:(8);
(9);
式中,即为哈密顿算子;
S145、将公式(8)和公式(9)带入公式(6),得到:(10);
S146、由于 ,因此 的变化会影响 , 的变化会导致 发生变化,此时的 会加强对来自 中真实动作的判定,因此,在每一轮判定中 都会增加,由此得到:(11);
式中, 为 在新一轮迭代中的表达式;
S147、 的增加会导致 产生更多的 ,同时 也将增加, 受到来自其余智能体的影响,设定虚拟控制系统的临界变化率为 ,则;
当 时,虚拟控制系统处于过拟合状态,出现不收敛现象;
当 时,虚拟控制系统处于欠拟合状态;
当 时,虚拟控制系统处于稳定状态;
其中, 为 变化的时间间隔; 为 在 内的变化量;
S148、对公式(5)进行移项,得到 ;通过对 的变化进行控制,得到:(12);
式中, 为 在新一轮迭代中的表达式; 为 在新一轮迭代中的表达式; 为 在新一轮迭代中的表达式;
通过公式(12),利用 调节了 的平衡,完成对于GAN的改进,获得CoGAN;
所述的S2中,构建鱼鳞预测算法的步骤为:S21、鱼鳞预测算法中,鱼鳞个数为N,即为与智能体的数量相同,每个鱼鳞对应一个智能体 ,每 个 鱼鳞 的 维 度为 D ,所有 鱼 鳞 的 初始 数 据 集合 表 示 为 :,每个鱼鳞的初始数据都是n个数据的融合,即为D=n;
S22、每个鱼鳞关于调控对象的期望范围为 ,其中p1为期望范围的最低标准;p2为期望范围的最高标准;
S23、定义鱼鳞预测算法的参数差异为 ,且; 为稳态参数,用于调节 中的的稳定性, 的大小在一个长度为的领域范围内,即 ;因此,当 时,参数异常;
S24、通过鱼鳞差异矩阵 来表示每个参数差异的状态:(13);
关于 的结构矩阵 表示为:(14);
S25、设定 为扰动因子,建立扰动平衡方程:(15);
式中, 表示鱼鳞预测算法的抗干扰输出; 为鱼鳞预测算法的稳态输入参数; 为鱼鳞预测算法的控制输入参数; 为鱼鳞预测算法当前的输入;
S26、迭代后的鱼鳞参数 表示为: ; 代表每次迭代的学习率;第k个鱼鳞的参数适应度函数 表示为;
(16);
(17);
(18);
(19);
式中, 为第k−1个鱼鳞的参数适应度函数; 为第 k 个鱼鳞的分配权重; 为第 k 个鱼鳞对应参数的稳定误差; 和 表示 和对迭代更新的影响函数; 为迭代优化后的鱼鳞参数;公式(17)表示 隶属于 ;公式(18)和公式(19)为约束条件;公式(18)表示 满足 的领域范围之内; 代表鱼鳞参数的迭代范围; 代表迭代后所组成的参数向量;
所述的S3中,建立非线性协同系统,完成对深度协同对抗训练模型DCATM的构建的步骤为:S31、关于 和 的非线性协同系统表示为:(20);
式中, 和 分别作为 的主系统和子系统,并将 和 设置为随时间的变量; 和 是关于 的参数适应度函数; 是关于 的参数适应度函数; 是第i个智能体在 影响下的状态增长率; 是环境发生动态变化后外部因素对智能体的作用系数; 是第i个智能体的平衡参数;
S32、关于主系统的限定定理为,令 ,; 和 为智能体拥
有l个状态变量的扰动集合;若每个状态变量始终小于 ,则存在非负参数适应度函数和 ,在公式(20)的基础上,使得公式(21)成立:(21);
式中, 和 作为 的稳态输入参数; 作为 的稳态输入参数; 表示 ;
S33、在 中,假设每个智能体都提供一个关于和 的状态置信系数 ;
通过 生成关于 和 的抵消参数,以抵抗来自 和 变化所引起的非正常主系统;
和 的最低期望标准为 ;
S34、为便于表示,令 ;当 和 发生过度变化时,会导致 发生过度变化,使得 ;为达到扰动平衡的目的,根据主系统的限定定理,关于 的扰动平衡方程表示为:(22);
式中, 为每一次发生动态变化后的抗干扰输出;
S35、 和 的过度变化会导致M中的 增加,使 的对抗性增加,则会发生以下变化:
(23);
式中, 是动态变化之后的 ; 和分别为动态变化前、动态变化后关于 的变化量;
S36、通过S31‑S35可知,当虚拟控制系统发生变化时,通过限定定理不断缩放以满足平衡条件,而当过度变化发生时,公式(22)的扰动平衡方程又会根据公式(23)产生反向逆变,即 ,通过正向和逆向对来自 和 的变化进行抵抗;
S37、 满足:
(24);
(25);
式中, 和 为动态变化后的 ; 代表不同的状态;
S38、通过公式(24)和公式(25)可得,每一次 在环境容量的影响下均大于的上限;
若 ,或者
,则 ,即
,直到满足公式(24)和公式(25)为止;
S39、对价值函数 进行扩展:(26);
(27);
(28);
式中, 是关于行动为 和 的价值函数; 是在的影响下的 ;l的数值在智能体协同控制过程中不断更新; 和 的影响下的 不断扩展到 中,对 和 进行预测和抵抗。
2.根据权利要求1所述的基于协同训练模型改进IQL的多智能体协同控制方法,其特征在于:所述的S2中,通过鱼鳞预测算法完成对 和 的实时监测。
3.根据权利要求1所述的基于协同训练模型改进IQL的多智能体协同控制方法,其特征在于:所述的S34中,过度变化为,设置一个阈值变化量FD,若变化量≥FD,则代表过度变化。