利索能及
我要发布
收藏
专利号: 2022102554020
申请人: 大连东软信息学院
专利类型:发明专利
专利状态:已下证
更新日期:2026-05-14
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于改进近端策略优化算法的作业车间调度方法,其特征在于,包括如下步骤:S1:定义作业车间的加工信息;

S2:定义车间作业环境状态信息;

S3:定义基于调度目标和时间戳的奖励函数,获取初始奖励函数值;

S4:对所述初始奖励函数值进行优化,获取密集奖励函数值;

S5:建立基于改进的近端策略优化算法模型,并根据所述作业车间的加工信息、所述车间作业环境状态信息以及所述密集奖励函数值,获取优化后的待加工工件序号。

2.根据权利要求1所述的一种基于改进近端策略优化算法的作业车间调度方法,其特征在于:所述S1中的作业车间的加工信息还包括:待加工机器序号q:q≤m、和第p个工件在第q台机器上的加工工时timepq;

将所述作业车间的加工信息用矩阵形式表示为:

式中,p表示待加工工件序号;n表示总待工件数量;m表示总的机器数量;Np表示第p个待加工工件;Mpq表示在第q台机器上加工第p个工件。

3.根据权利要求2所述的一种基于改进近端策略优化算法的作业车间调度方法,其特征在于:所述S2中的车间作业环境状态信息包括:state[0]:表示当前工件是否可以被执行;

其中:

式中:false表示工件不能被执行,true表示工件能够被执行;

state[1]:表示归一化当前工序剩余时间;

其中:

state[1]=max(0,time_left_current_op‑difference)/max_time_op   (3)式中:time_left_current_op表示当前工序剩余时间;difference表示当前时间戳下距离上一次状态更新时的时间间隔;max_time_op表示所有工序中最大调度时间;

state[2]:表示当前工序执行的百分比;

其中:

state[2]=time_step_job/machines                  (4)式中:time_step_job表示当前正在执行的工序序号;machines表示当前工件所需要的机器数;

state[3]:表示归一化当前工件总共剩余时间;

其中:

state[3]=total_perform_op_time_jobs/max_time_jobs          (5)total_perform_op_time_jobs=total_perform_op_time_jobs_o+min(difference,time_left_current_op)  (6)式中:total_perform_op_time_jobs表示当前工件总共剩余时间;max_time_jobs表示所有工件中最大累计调度时间;total_perform_op_time_jobs_o表示上一加工工件总共剩余时间;

state[4]:表示下一工序所需机器归一化可用时间;

其中:

state[4]=max(0,time_until_available_machine–difference)/max_time_op   (7)式中:time_until_available_machine表示所需机器可用时间;

state[5]:表示上一工序完成后归一化空闲时间其中:

state[5]=(difference‑time_left_current_op)/sum_op       (8)式中:sum_op表示所有工件的所有工序累计调度时间;

state[6]:表示归一化累积空闲时间;

state[6]=old_state[6]+state[5]                         (9)式中:old_state[6]表示上一工序完成后的归一化累积空闲时间。

4.根据权利要求3所述的一种基于改进近端策略优化算法的作业车间调度方法,其特征在于:所述S3中的奖励函数为:R(t)=Tq–idle(tq,tq+1)                        (10)式中:R(t)表示奖励函数;tq表示开始执行第p(p≤n)个工件中的第q个工序时的时刻;

tq+1表示开始执行第p(p≤n)个工件中的第q+1个工序时的时刻;idle表示从tq到tq+1间的空闲时间的函数;Tq表示当前工序所需要的完工时间。

5.根据权利要求4所述的一种基于改进近端策略优化算法的作业车间调度方法,其特征在于:所述S4中,对所述初始奖励函数值进行优化的过程如下:Rt=γRt‑1+rt                       (11)式中:γ代表折扣因子;Rt‑1代表t‑1时刻的累积奖励值;Rt代表t时刻的累积奖励值;rt代表在t时刻输出的初始奖励函数值;

求解t时刻附加折扣因子的初始奖励函数值的均值和方差:式中:At表示t时刻的初始奖励函数值的均值,Vt表示t时刻的初始奖励函数值的方差;

初始化At和Vt;

则将所述t时刻输出的初始奖励函数值rt进行标准差处理如下:rtb=rt/sqrt(Vt)                          (14)式中:rtb表示标准差处理后的初始奖励函数值;sqrt表示开方运算;

将所述标准差处理后的初始奖励函数值进行裁剪操作,获取密集奖励函数值如下:rty=clip(rtb,‑1,1)                        (15)式中:rty表示密集奖励函数值。

6.根据权利要求5所述的一种基于改进近端策略优化算法的作业车间调度方法,其特征在于:所述S5中,基于改进的近端策略优化算法模型建立如下:式中: 表示目标参数θ的奖励值期望;E表示随机变量在一个训练回合的期望;τ为随机变量的一个训练回合;R(τ)表示一个训练回合的奖励值分布;pθ(τ)表示学习轨迹的概率分布,pθ′(τ)表示采样轨迹的概率分布,τ~pθ(τ)表示τ的分布函数为pθ(τ);

式中: 表示连续形式的梯度函数;st表示时刻t的状态,at表示时刻t的动作;πθθ θ′表示以θ为目标参数的策略;A (st,at)为优势函数,A (st,at)为连续形式的优势函数;pθ(at|st)表示在状态st下采取动作at的目标策略;

将公式(12)写成离散形式如下:

其中: 表示离散形式的优势函数; 表示离散形式的梯度函数;

表示与车间作业环境互动的策略;clip为钳位函数,ε表示超参数。

7.根据权利要求3所述的一种基于改进近端策略优化算法的作业车间调度方法,其特征在于:所述S5前,还包括如下步骤:若在同一时间戳下,同时开始两个工件的工序时,制定工件加工工序优先级选择策略;

所述工件加工工序优先级选择策略如下:

假设工件p1和工件p2同时被分配到同一台机器,工件p1距离加工完成还剩1道工序,工件p2距离加工完成还剩f道工序,若f>1,则此时工件p1中的p1.state[0]=false,p2.state[0]=true;

否则:p1.state[0]=true,p2.state[0]=false;

式中:p1.state[0]表示工件p1的state[0]状态,p2.state[0]表示工件p2的state[0]状态。