1.一种基于集成的合作多智能体深度强化学习方法,其特征在于:
方法包括以下步骤:
步骤1、演员评论家网络或者动作值网络的初始化:为每个智能体集成多个演员评论家网络或者动作值网络,并随机初始化网络参数;
步骤2、获取局部观察:每个智能体从环境中获取各自的局部观察;
步骤3、合作多智能体系统在环境中的决策;
步骤4、抽取转移样本:从经验缓冲区为每个智能体集成的多个演员评论家网络或者动作值网络抽取转移样本,用于每个演员评论家网络或者动作值网络的转移样本都是独立且随机抽取的;
步骤5、训练演员评论家网络或者动作值网络:使用抽取出的转移样本,依次训练所有的训练演员评论家或者动作值网络;
步骤6、重复步骤2‑步骤5,直至训练结束;
其中,每个智能体的内部都集成了多个策略网络或值网络,集成模块将这些网络的输出集成为一个总体的动作概率分布或动作值;合作多智能体与环境交互时,每个智能体根据环境的全局状态获取局部观察,并将局部观察输入到自己的多个策略网络或值网络,输出多个动作概率分布或动作值;采用ACW或OAV集成方法对多个动作概率分布或动作值进行集成,得到集成的动作概率分布或动作值,智能体依据该集成结果进行动作采样或ε‑greedy动作选择;所有智能体选择的动作构成一个联合动作使环境转移到下一个状态,每个智能体均获得环境反馈的团队奖励,重复以上过程直到本回合结束;
每个智能体集成的多个策略网络或值网络使用同一个经验缓冲池中的转移样本进行训练,但每个网络独立地从经验缓冲池中随机抽取各自用于训练的转移样本;由于每个策略网络或值网络训练时使用的样本大概率不同,使得这些网络之间存在多样性,当某个策略网络或值网络无法输出正确的动作概率分布或动作值时,智能体可依据其他网络输出的正确信息进行决策。
2.根据权利要求1所述的基于集成的合作多智能体深度强化学习方法,其特征在于,所述在ACW集成方法中,使用到了动作置信度的概念,在强化学习中,动作置信度的含义是智能体依据动作概率分布或者动作值进行决策时的自信程度,智能体决策时,若对某一个动作的偏好越明显,则该状态下的动作置信度越大,若对特定动作的偏好越不明显,则该状态下的动作置信度越大,在基于值的方法中,动作置信度定义为ψ(Q(o|·)):ψ(Q(o|·))=Qmax(o|·)‑Qsecond(o|·)(1)其中,Q(o|·)表示局部观察o下所有动作对应的动作值,Qmax(o|·)表示在局部观察o下最大的动作值,Qsecond(o|·)表示在局部观察o下第二大的动作值,在基于策略的方法中,动作置信度定义为ψ(P(o|·))ψ(P(o|·))=Pmax(o|·)‑Psecond(o|·)(2)其中,P(o|·)表示局部观察o下所有动作对应的动作概率,Pmax(o|·)表示在局部观察o下最大的动作概率,Psecond(o|·)表示在局部观察o下第二大的动作概率;
ACW集成方法使用每个策略网络或者值网络的动作置信度作为其权重,通过将乘以权重的动作概率分布或者动作值累加得到集成的动作概率分布PACW(o|·)或者动作值QACW(o|·):其中,m表示智能体集成的策略网络或者值网络的数量。
3.根据权利要求1所述的基于集成的合作多智能体深度强化学习方法,其特征在于,所述OAV集成方法还需要考虑到其他情况,当集成的数量m大,同一状态下存在多个 时,只考虑对应最多的策略网络或者值网络的 此外,当某个状态下所有集成的策略网络或者值网络的最优动作都不相同时,OAV集成方法使用累加所有策略网络或者值网络的输出进行集成,使用OAV集成方法对m个策略网络进行集成时得到的结果为:i
其中,m表示智能体集成的策略网络的数量,P (o|·)表示 对应的策略网络输出的j
动作概率分布,k表示 对应的策略网络的个数,P (o|·)表示最优动作不是 的策略网络输出的动作概率,tcur表示当前的训练步数,tmax表示设置的最大训练步数,使用OAV集成方法对m个策略网络进行集成时得到的结果为QOAV(o|·):i
其中,m表示智能体集成的策略网络的数量,Q (o|·)表示 对应的策略网络输出的j
动作值分布,k表示 对应的策略网络的个数,Q (o|·)表示最优动作不是 的动作值,tcur表示当前的训练步数,tmax表示设置的最大训练步数。