利索能及
我要发布
收藏
专利号: 2022106206962
申请人: 暨南大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-07-05
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于MMDDPG算法的RGV小车调度方法,其特征在于,包括:根据生产车间的特点,建立车间调度模型,具体包括:将RGV小车在生产车间中的调度建模为直线流水调度模型,调度的最终目标是使得每个班次中各台加工机器的总任务搁置时间最短,使得加工机器达到最高的利用率;

利用银行家算法为单独的一个RGV小车提供调度策略,决定加工机器的执行次序;

在直线流水调度模型中,采用不可抢占式最低松弛度优先算法;

将每个RGV小车视作一个模块,利用MMDDPG算法并结合熵正则化器使该RGV小车了解到其他RGV小车的策略,实现对多RGV小车的有效协同调度;

RGV小车调度基于MMDDPG算法强化学习的结果进行,MMDDPG算法进行强化学习时,对每个RGV小车的强化学习都考虑其他RGV小车的动作策略,进行中心化训练和非中心化执行;

所述中心化训练指所有的RGV小车的数据进行统一训练,所述非中心化执行指每个RGV小车按各自规则执行。

2.根据权利要求1所述的基于MMDDPG算法的RGV小车调度方法,其特征在于,采用银行家算法对单独的一个RGV小车提供调度参考,同时,利用MMDDPG算法并结合熵正则化器使该RGV小车了解到其他RGV小车的策略,实现对多RGV小车的有效协同调度,具体包括:利用银行家算法为单独的RGV小车提供调度策略πbank;

利用MMDDPG算法并结合熵正则化器使每一RGV小车了解到其他RGV小车所采取的调度策略,并为每一个RGV小车提供考虑了其他RGV小车调度的策略πMMDDPG;

构建每一个RGV小车最终采取的策略πfinal如下式:πfinal=απbank+(1‑α)πMMDDPG;

其中,a为可调超参数,取值范围在(0,1)。

3.根据权利要求2所述的基于MMDDPG算法的RGV小车调度方法,其特征在于,在直线流水调度模型中,采用不可抢占式最低松弛度优先算法,具体为:根据每台加工机器的任务松弛程度确定任务的优先级,任务的紧急程度越高,任务的执行优先级越高。

4.根据权利要求3所述的基于MMDDPG算法的RGV小车调度方法,其特征在于,训练多个不同的子策略的集合,将策略之间的差异作为集成目标函数,该多个策略的集成目标函数为:其中,

J(ui)为多个策略的集成目标函数;

Ri(s,a)为奖励函数;

s为智能体的状态输入;

a为智能体将采取的动作;

μi策略集中的第i个策略;

H(μi)是策略分布的熵;

u

p为所有状态的集合;

E表示概率论中的期望;

λ是超参数,用来控制目标函数中熵的目标比例,值越大,说明越希望多个策略之间的差异性越大。

5.根据权利要求4所述的基于MMDDPG算法的RGV小车调度方法,其特征在于,MMDDPG算法强化学习中采用如下公式更新计算目标函数的梯度:其中,

D为智能体体验重放缓冲区,包括元组(x,x',a1,...,aN,r1,...,rN);

ui为第i个策略;

J(ui)为第i个策略的目标函数;

θi为第i个策略ui的参数;

为一个集中式动作值函数,函数的输入为a1,…,aN,为N个智能体的动作,(r1,…,rN)为第i个智能体所获得的奖励;函数的输出为智能体i的动作价值;

x为状态信息,x=(o1,…,oN),包括N个智能体的观察值,Oi为第i个智能体的观察值。

6.根据权利要求1所述的基于MMDDPG算法的RGV小车调度方法,其特征在于,强化学习奖励为单位时间的RGV小车运输总量,动作为RGV小车上料、下料以及RGV小车发生位移,状态为各RGV小车的位置。

7.一种基于MMDDPG算法的RGV小车调度系统,其特征在于,使用权利要求1‑6所述的基于MMDDPG算法的RGV小车调度方法,包括多台RGV小车和控制调度模块;

控制调度模块采用基于MMDDPG算法,根据各台RGV小车的状态,及强化学习的结果,得到输出动作,并发出相应的动作指令;

RGV小车收到控制调度模块发出的动作指令后执行相应的操作,多台RGV协同完成任务。

8.一种RGV物流分拣系统,其特征在于,包括权利要求7所述的基于MMDDPG算法的RGV小车调度系统;

RGV物流分拣系统路网模型采用双向随机出入口路网模型;

路网区域划分为x×x个子区域,RGV小车可以到达任意子区域进行分拣作业,然后离开路网;

采用随机生成出入口位置的方式,当RGV入口位置生成时,在对面一侧随机生成出口位置;

根据随机生成的出入口位置进行路径规划。

9.根据权利要求8所述的RGV物流分拣系统,其特征在于,在每一次RGV的路径规划完成后,更新路网负载表,路网负载表描述了路网中每一个子区域的路网负载,各子区域的路网负载为RGV路径规划经过该区域的路径数。

10.根据权利要求9所述的RGV物流分拣系统,其特征在于,根据更新后的路网负载表,获取各RGV小车的路径规划及位置信息。