利索能及
我要发布
收藏
专利号: 2023105203980
申请人: 常州大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-05-14
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.基于时态逻辑控制策略的多机器人流水线组装方法,其特征在于,包括:基于奇偶校验博弈合成时态逻辑的控制策略表述机器人的任务规约,根据合成策略的接受条件构建带有势能函数的奖励自动机对所述机器人的行为赋予奖励值;

将由秩为1的广义反应性规约的机器人组的综合策略分解为每个机器人的奖励自动机,并在MDP上扩展带有势能的奖励自动机;

提出基于价值迭代的奖励塑造算法和分散式Q‑学习算法提升所述机器人组学习到最优策略的速度。

2.如权利要求1所述的基于时态逻辑控制策略的多机器人流水线组装方法,其特征在于:所述机器人的任务规约的表述包括,将所述奇偶校验博弈合成时态逻辑的控制策略的公式转化为具有单一接受状态的Buchi自动机;

构造确定性有限自动机引导系统到达可接受状态,其中,秩为1的广义反应性规约是时态逻辑的控制策略的一个片段,能对反应式机器人系统的环境和任务规约进行建模的形式化语言的转变;

所述秩为1的广义反应性规约φ的计算包括,

其中, 表示环境初始状态的布尔公式, 表示系统初始状态的布尔公式,和 表示系统不变量的时态逻辑的控制策略公式联合, 和 表示具有活性策略的时态逻辑的控制策略公式的联合, 和 表示转换关系的布尔公式在所有时刻都成立, 和 表示布尔公式总能在未来的某一时刻能成立。

3.如权利要求2所述的基于时态逻辑控制策略的多机器人流水线组装方法,其特征在于:对所述机器人的行为赋予奖励值包括,基于合成策略 定义带有势能的奖励自动机对机器人的行为赋予奖励值,其中,ε表示有限状态集合,ε0∈ε表示初始状态,Γ表示可接受的状态集合, 表示动作集合, 表示状态间的转移函数;

e r

所述奖励自动机的定义为N=,其中,E表示一个有限状态集合,E0e∈E表示初始状态, 表示接受状态集合,F表示动作集合,δ∈E×F→E表示状态间的转移函数, 表示带有转移函数的状态奖励函数, 表示势能函数;

r

所述合成策略和所述奖励自动机的参数一一对应,其中,δ (e,a)、Ψ(e,a)的计算取决于所述机器人执行的动作a的状态,其中,e∈E。

4.如权利要求3所述的基于时态逻辑控制策略的多机器人流水线组装方法,其特征在于:还包括,当状态间转移函数得出的状态不属于接受状态集合时,则赋予机器人奖励为0,Ψ(e,a)取值在0和rv之间,当状态间转移函数得出的状态属于接受状态集合时,则会赋予机器人连续奖励rv,Ψ(e,a)取值为pv,公式如下:其中,rv和pv表示赋予机器人的奖励值。

5.如权利要求4所述的基于时态逻辑控制策略的多机器人流水线组装方法,其特征在于:所述分解为每个机器人的奖励自动机的过程包括,e r

给定所述奖励自动机N=和局部动作集Fi,定义映射函数 表示将奖励机某一个状态e∈E映射到一组状态 其中,所述映射函数和局部动作集下的奖励自动机的投影状态的公式分别为:利用所述局部动作集将奖励自动机分解出单个奖励自动机,所述单个奖励自动机的状态、初始状态和最终状态用所述映射函数 定义,若过渡状态为最终状态,则将奖励设置为rv,潜在价值设置为pv,否则奖励设置为0,潜在价值设置为(0,pv);

e r

所述单个奖励自动机定义为Ni=,其中:e e

当且仅当 和e′=δ (e,a),δ i∈Ei×Fi→Ei被定义为当满足 被定义为 否则

当满足ei∈Ti, 被定义为Ψi(ei)=pv,否则Ψi(ei)∈(0,pv)。

6.如权利要求5所述的基于时态逻辑控制策略的多机器人流水线组装方法,其特征在于:所述在MDP上扩展带有势能的奖励自动机包括,所述单个奖励自动机和马尔可夫决策过程共享标签函数 扩展后的MDP被定义为 其中:

其中,S表示状态集合,s0表示初始状态,A表示动作集合,P表示状态转移概率,R表示状态转移的奖励函数,γ表示折扣因子。

7.如权利要求6所述的基于时态逻辑控制策略的多机器人流水线组装方法,其特征在于:提升所述机器人组学习到最优策略的速度包括,提出基于价值迭代的奖励塑造算法将势能函数分配给各个奖励自动机,所述奖励塑造算法的目标是找到最优策略,使期望的累计奖励最大化,最初设定Ψi的潜在价值为0,在每次的迭代中更新每个状态e的价值函数,当状态值的变化忽略不计时,算法终止并使用计算出的价值函数作为奖励自动机的势能函数;

提出基于分散式Q‑学习算法应用到机器人组中去学习最优策略,所述分散式Q‑学习算法采用MDP 个体奖励自动机、学习率和折扣因子作为输入,输出每个机器人的Q值函数,当某个事件为多个机器人之间的共享事件,则触发机器人的个体奖励自动机的转换,即在个体机器人的分散训练过程中,将以预定的概率p采取动作来观察下一个状态,再根据奖励函数和势能函数计算奖励,并根据贝尔曼方程计算每个状态ei的Q值函数。

8.基于时态逻辑控制策略的多机器人流水线组装系统,应用如权利要求1~7任一项所述的基于时态逻辑控制策略的多机器人流水线组装方法,其特征在于,包括:奖励值赋予单元,用于基于奇偶校验博弈合成时态逻辑的控制策略表述机器人的任务规约,根据合成策略的接受条件构建带有势能函数的奖励自动机对所述机器人的行为赋予奖励值;

策略分解单元,用于将由秩为1的广义反应性规约的机器人组的综合策略分解为每个机器人的奖励自动机,并在MDP上扩展带有势能的奖励自动机;

学习速度提升单元,用于提出基于价值迭代的奖励塑造算法和分散式Q‑学习算法提升所述机器人组学习到最优策略的速度。

9.一种设备,其特征在于,所述设备包括,

处理器;

用于存储处理器可执行指令的存储器;

所述处理器被配置为调用所述存储器存储的指令,以执行权利要求1~7中任一所述的方法。

10.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现权利要求1~7中任一所述的方法。