买专利、卖专利、专利购买、专利交易、专利出售、高企申报-基于协同训练模型改进IQL的多智能体协同控制方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

基于协同训练模型改进IQL的多智能体协同控制方法

￥21500

专利号： 202410508860X

申请人：山东工商学院

专利类型：发明专利

专利状态：已下证

更新日期：2026-05-14

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.基于协同训练模型改进IQL的多智能体协同控制方法，其特征在于包括以下步骤：S1、对传统生成式对抗网络GAN进行改进，建立跨域生成对抗网络CoGAN，步骤包括：S11、构建各个智能体的动态过程，其中包括两个智能体之间的相互作用；

S12、对于两个智能体之间的相互作用进行优化；

S13、获取各个智能体在训练过程中的对抗损失函数；

S14、建立关于反向平衡器的虚拟控制系统；

S2、构建鱼鳞预测算法，并鱼鳞预测算法将引入CoGAN中；

S3、基于鱼鳞预测算法和CoGAN，建立非线性协同系统，完成对深度协同对抗训练模型DCATM的构建，即为完成对IQL的改进，获得基于改进IQL的多智能体协同控制方法；

所述的S11中，构建各个智能体的动态过程的步骤为：S111、应用场景下的智能体数量设定为N，智能体集合agent表示为；第i个智能体对应的状态变量为，；每个智能体对应一个生成器网络，用于生成该智能体在当前状态下采取的动作策略，将每个智能体的智能体状态作为输入，并生成每个智能体的动作策略，其中，的参数表示为，则；

S112、第i个智能体的动态过程表示为：（1）；

式中，是第i个智能体的状态增长率，用于反映智能体在多智能体协同控制中的动态行为；为智能体j对i的作用系数，即为两个智能体之间的相互作用，且j≠i；

和分别为第i个智能体的环境容量、自我抑制系数和外部影响系数；t为时间；

所述的S12中，对两个智能体之间的相互作用，即为对进行优化的方法为：对于第i个智能体，其余N‑1个智能体对第i个智能体的综合影响表示为，外部环境对第i个智能体的影响表示为，此时的表示为：（2）；

式中，表示外部因素对第i个智能体的作用系数；

所述的S13中，获取各个智能体在训练过程中的对抗损失函数的步骤为：S131、设定判别器网络为，通过评估生成的动作策略的质量；接收的真实动作记为，输出的动作策略即为；将和均作为的输入，的参数用表示，则：（3）；

式中，为的判别输出；为中的真实动作判别输出；为中的生成动作判别输出；用于调节和；以及不断调节和；

S132、第i个智能体在训练过程中的对抗损失函数表示为：（4）；

式中，为真实动作个数；为噪声分布个数；和分别为和的期望；是关于以及的判别；是关于的判别；

所述的S14中，建立关于反向平衡器的虚拟控制系统的过程为：S141、将的虚拟控制器设定为；是智能体在环境容量下，输出动作和真实动作的反向平衡器，是在中引入的生成器网络参数，用于形成虚拟控制器；

S142、关于反向平衡器的虚拟控制系统表示为：（5）；

式中，为第i个智能体的反向平衡器； = ，即同样表示智能体在环境容量下，输出动作和真实动作的反向平衡器；

S143、公式（5）使得：（6）；

（7）；

式中，和是第i个智能体的初始判别器网络和初始输出动作；是动作策略为时的初始判别器网络；是关于渐近增长率的上限；

S144、由于是的输入，因此：（8）；

（9）；

式中，即为哈密顿算子；

S145、将公式（8）和公式（9）带入公式（6），得到：（10）；

S146、由于，因此的变化会影响，的变化会导致发生变化，此时的会加强对来自中真实动作的判定，因此，在每一轮判定中都会增加，由此得到：（11）；

式中，为在新一轮迭代中的表达式；

S147、的增加会导致产生更多的，同时也将增加，受到来自其余智能体的影响，设定虚拟控制系统的临界变化率为，则；

当时，虚拟控制系统处于过拟合状态，出现不收敛现象；

当时，虚拟控制系统处于欠拟合状态；

当时，虚拟控制系统处于稳定状态；

其中，为变化的时间间隔；为在内的变化量；

S148、对公式（5）进行移项，得到；通过对的变化进行控制，得到：（12）；

式中，为在新一轮迭代中的表达式；为在新一轮迭代中的表达式；为在新一轮迭代中的表达式；

通过公式（12），利用调节了的平衡，完成对于GAN的改进，获得CoGAN；

所述的S2中，构建鱼鳞预测算法的步骤为：S21、鱼鳞预测算法中，鱼鳞个数为N，即为与智能体的数量相同，每个鱼鳞对应一个智能体，每个鱼鳞的维度为 D ，所有鱼鳞的初始数据集合表示为：，每个鱼鳞的初始数据都是n个数据的融合，即为D=n；

S22、每个鱼鳞关于调控对象的期望范围为，其中p1为期望范围的最低标准；p2为期望范围的最高标准；

S23、定义鱼鳞预测算法的参数差异为，且；为稳态参数，用于调节中的的稳定性，的大小在一个长度为的领域范围内，即；因此，当时，参数异常；

S24、通过鱼鳞差异矩阵来表示每个参数差异的状态：（13）；

关于的结构矩阵表示为：（14）；

S25、设定为扰动因子，建立扰动平衡方程：（15）；

式中，表示鱼鳞预测算法的抗干扰输出；为鱼鳞预测算法的稳态输入参数；为鱼鳞预测算法的控制输入参数；为鱼鳞预测算法当前的输入；

S26、迭代后的鱼鳞参数表示为：；代表每次迭代的学习率；第k个鱼鳞的参数适应度函数表示为；

（16）；

（17）；

（18）；

（19）；

式中，为第k−1个鱼鳞的参数适应度函数；为第 k 个鱼鳞的分配权重；为第 k 个鱼鳞对应参数的稳定误差；和表示和对迭代更新的影响函数；为迭代优化后的鱼鳞参数；公式（17）表示隶属于；公式（18）和公式（19）为约束条件；公式（18）表示满足的领域范围之内；代表鱼鳞参数的迭代范围；代表迭代后所组成的参数向量；

所述的S3中，建立非线性协同系统，完成对深度协同对抗训练模型DCATM的构建的步骤为：S31、关于和的非线性协同系统表示为：（20）；

式中，和分别作为的主系统和子系统，并将和设置为随时间的变量；和是关于的参数适应度函数；是关于的参数适应度函数；是第i个智能体在影响下的状态增长率；是环境发生动态变化后外部因素对智能体的作用系数；是第i个智能体的平衡参数；

S32、关于主系统的限定定理为，令，；和为智能体拥

有l个状态变量的扰动集合；若每个状态变量始终小于，则存在非负参数适应度函数和，在公式（20）的基础上，使得公式（21）成立：（21）；

式中，和作为的稳态输入参数；作为的稳态输入参数；表示；

S33、在中，假设每个智能体都提供一个关于和的状态置信系数；

通过生成关于和的抵消参数，以抵抗来自和变化所引起的非正常主系统；

和的最低期望标准为；

S34、为便于表示，令；当和发生过度变化时，会导致发生过度变化，使得；为达到扰动平衡的目的，根据主系统的限定定理，关于的扰动平衡方程表示为：（22）；

式中，为每一次发生动态变化后的抗干扰输出；

S35、和的过度变化会导致M中的增加，使的对抗性增加，则会发生以下变化：

（23）；