买专利、卖专利、专利购买、专利交易、专利出售、高企申报-基于时态均衡分析的多智能体多任务分层连续控制方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

基于时态均衡分析的多智能体多任务分层连续控制方法

￥18000

专利号： 2022112104839

申请人：常州大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-05-14

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于时态均衡分析的多智能体多任务连续控制方法，其特征在于，包括步骤如下：S1，基于时态逻辑构建多智能体多任务博弈模型，进行时态均衡分析并合成多智能体顶层控制策略；

S2，构建规约自动补全机制，通过增加环境假设完善有依赖关系的任务规约；

S3，构建顶层控制策略与底层深度确定性策略梯度算法的连接机制，并基于此连接机制构建多智能体的连续任务控制器。

2.根据权利要求1所述的基于时态均衡分析的多智能体多任务连续控制方法，其特征在于，步骤S1中，所述构建多智能体多任务博弈模型为：其中，N表示博弈智能体集合；S和A分别表示博弈模型的状态集合以及动作集合；S0为初始状态；表示在单个状态s∈S上所有的智能体采取动作集合后转移到AP

下一个状态的状态转移函数，表示不同智能体的动作集合的一个向量；λ∈S→2 表示状态到原子命题的标记函数；(γi)i∈N为每个智能体i的规约；ψ表示整个系统需要完成的规约；

对每个智能体i构建不可行域使得智能体i在所在的集合没有偏离当前策略集合的倾向，表达式如下：其中，中存在策略集合使得智能体i的所有策略σi与其他策略组合都不能满足γi；表示策略集合中不包含第i个智能体的策略组合；表示“存在”；

表示“不符合”；

然后计算判断在这个交集中是否存在轨迹π满足(ψ∧∧i∈Wγi)，并采用模型检验的方法生成每个智能体的顶层控制策略。

3.根据权利要求1所述的基于时态均衡分析的多智能体多任务连续控制方法，其特征在于，步骤S2中，构建规约自动补全机制的详细步骤如下：S21，增加环境假设精化任务规约

通过选择ε∈E加入输家L的环境规约Ψ，采用反策略模式自动生成新规约能实现，表达式如下：其中，E为环境规约集合；

生成新规约的详细步骤如下：

S211，计算原规约的取反形式的策略，为合成的有限状态转换器形式的策略；G表示从当前时刻起，规约总是为真；F表示规约在以后某个时刻会真；

S212，在有限状态转换器上设计满足形式FGΨe规约的模式；

S213，通过生成的模式生成规约并取反；

S22，对于第一智能体的任务依赖于第二智能体的任务，在时态均衡条件下，首先通过计算对所有智能体a∈N的策略，合成有限状态转换器的形式；然后基于a′策略设计满足形式GFΨe的模式并采用该模式生成ε ；根据步骤S21寻找所有智能体b∈M的b规约精化集合ε；

然后判断对于所有的规约是否满足若满足，则完成存在依赖关系的任务规a b约的精化；若不满足，则迭代构建ε′及ε直至满足以下公式：

4.根据权利要求3所述的基于时态均衡分析的多智能体多任务连续控制方法，其特征在于，在生成新规约的情况下，对于所有的参与者在加入环境假设后规约是否合理且可实现进行判断：若可实现，则完成规约的精化；

若合理，但是存在有参与者在加入环境假设后规约不能实现的情况，则迭代构建ε′,使得能实现。

5.根据权利要求1所述的基于时态均衡分析的多智能体多任务连续控制方法，其特征在于，步骤S3中，构建顶层控制策略与底层深度确定性策略梯度算法的连接机制，并基于此连接机制构建多智能体的连续任务控制器的具体实现步骤如下：S31，根据时态均衡分析，获得博弈模型中每个参与者的策略将其扩展为其中并将其作为奖励函数用于

多智能体环境的扩展马尔可夫决策过程中；多智能体环境的扩展马尔可夫决策过程的表达式如下：其中，N表示博弈智能体集合；P和Q分别表示环境的状态以及多智能体采取的动作集合；h表示状态转移的概率；ζ表示T的衰减系数；表示状态转移到原子命题的标记函数；ηi表示环境在采取智能体i策略时获得的收益，为智能体i在p∈P采取动′作q∈Q后转移到p∈P，其在ηi上的状态也将从u∈Ui∪Fi转移到并获得奖励 “<>”表示元组，“∪”表示并集；

S32，将ηi扩展为状态转移确定的带有衰减函数ζr的MDP形式，初始化所有的使得当时，为0；当时，为1；

* *

然后通过值迭代的方法确定每个状态的值函数v(u) ，并将收敛后的v(u) 作为势能函数加入到奖励函数中，则T的奖励函数r(p,q,p′)的表达式如下：S33，每个智能体i拥有一个包含带有参数θ的动作网络μ(p∣θi)，并共享一个带有参数ω评价网络针对评价网络参数ω构建损失函数J(ω)，并根据网络的梯度反向传播更新网络，损失函数J(ω)的表达式如下：其中，rt是由步骤S32计算所得的奖励值，

以及V(p∣ω,β)设计为全连接层网络分别评估状态值和动作优势，α及β分别为两个网络的参数；d为从经验回放缓冲区数据集D中随机采样的数据；

最后根据评价网络参数ω和行为网络参数θi分别对目标评价网络参数和行为网络参数进行软更新。

6.根据权利要求5所述的基于时态均衡分析的多智能体多任务连续控制方法，其特征在于，在采用异策略算法进行梯度更新时，根据蒙特卡罗方法估算的期望值，将随机采样的数据代入如下公式进行无偏差估计：其中，表示微分算子。