买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于集成的合作多智能体深度强化学习方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于集成的合作多智能体深度强化学习方法

￥24000

专利号： 2023104534632

申请人：桂林电子科技大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-06-16

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于集成的合作多智能体深度强化学习方法，其特征在于：

方法包括以下步骤：

步骤1、演员评论家网络或者动作值网络的初始化：为每个智能体集成多个演员评论家网络或者动作值网络，并随机初始化网络参数；

步骤2、获取局部观察：每个智能体从环境中获取各自的局部观察；

步骤3、合作多智能体系统在环境中的决策；

步骤4、抽取转移样本：从经验缓冲区为每个智能体集成的多个演员评论家网络或者动作值网络抽取转移样本，用于每个演员评论家网络或者动作值网络的转移样本都是独立且随机抽取的；

步骤5、训练演员评论家网络或者动作值网络：使用抽取出的转移样本，依次训练所有的训练演员评论家或者动作值网络；

步骤6、重复步骤2‑步骤5，直至训练结束；

其中，每个智能体的内部都集成了多个策略网络或值网络，集成模块将这些网络的输出集成为一个总体的动作概率分布或动作值；合作多智能体与环境交互时，每个智能体根据环境的全局状态获取局部观察，并将局部观察输入到自己的多个策略网络或值网络，输出多个动作概率分布或动作值；采用ACW或OAV集成方法对多个动作概率分布或动作值进行集成，得到集成的动作概率分布或动作值，智能体依据该集成结果进行动作采样或ε‑greedy动作选择；所有智能体选择的动作构成一个联合动作使环境转移到下一个状态，每个智能体均获得环境反馈的团队奖励，重复以上过程直到本回合结束；

每个智能体集成的多个策略网络或值网络使用同一个经验缓冲池中的转移样本进行训练，但每个网络独立地从经验缓冲池中随机抽取各自用于训练的转移样本；由于每个策略网络或值网络训练时使用的样本大概率不同，使得这些网络之间存在多样性，当某个策略网络或值网络无法输出正确的动作概率分布或动作值时，智能体可依据其他网络输出的正确信息进行决策。

ACW集成方法使用每个策略网络或者值网络的动作置信度作为其权重，通过将乘以权重的动作概率分布或者动作值累加得到集成的动作概率分布PACW(o|·)或者动作值QACW(o|·)：其中，m表示智能体集成的策略网络或者值网络的数量。

3.根据权利要求1所述的基于集成的合作多智能体深度强化学习方法，其特征在于，所述OAV集成方法还需要考虑到其他情况，当集成的数量m大，同一状态下存在多个时，只考虑对应最多的策略网络或者值网络的此外，当某个状态下所有集成的策略网络或者值网络的最优动作都不相同时，OAV集成方法使用累加所有策略网络或者值网络的输出进行集成，使用OAV集成方法对m个策略网络进行集成时得到的结果为：i

其中，m表示智能体集成的策略网络的数量，P (o|·)表示对应的策略网络输出的j

动作概率分布，k表示对应的策略网络的个数，P (o|·)表示最优动作不是的策略网络输出的动作概率，tcur表示当前的训练步数，tmax表示设置的最大训练步数，使用OAV集成方法对m个策略网络进行集成时得到的结果为QOAV(o|·)：i

其中，m表示智能体集成的策略网络的数量，Q (o|·)表示对应的策略网络输出的j

动作值分布，k表示对应的策略网络的个数，Q (o|·)表示最优动作不是的动作值，tcur表示当前的训练步数，tmax表示设置的最大训练步数。