买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于DDQN的智能车间动态自适应调度方法及系统

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于DDQN的智能车间动态自适应调度方法及系统

￥18000

专利号： 2021114105225

申请人：广东工业大学

专利类型：发明专利

专利状态：已下证

更新日期：2025-06-18

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于DDQN的智能车间动态自适应调度方法，其特征在于，所述智能车间为搭建了物联网环境的离散制造车间，由工件加工工位、车间物流节点及工件缓存区的制造节点组成，所述方法包括以下步骤：S1.采集车间生产作业数据；

S2.对车间生产作业数据进行预处理，然后构建制造节点的多维数据状态，按时间序列顺序形成制造节点的马尔科夫状态视图，完成数据状态建模；

S3.随机获取状态建模后的数据，每一条数据中存在表征离散制造车间的制造节点的当前数据状态S、基于当前数据状态S所采取的调度策略动作A、当前数据状态S执行调度策略动作A后的奖励R、制造节点的下一个数据状态S+1及车间生产作业过程的末状态D，然后一次选取k条数据作为样本；

S4.确定基于DDQN的当前目标Q网络，以马尔科夫状态视图中制造节点的各个数据状态S作为当前目标Q网络的输入，以执行各个调度策略动作A的动作评估值Q作为当前目标Q网络的输出，基于样本训练当前目标Q网络，得到训练好的深度目标Q网络；

S5.确定制造节点的实时数据状态S＇，将实时数据状态S＇作为训练好的深度目标Q网络的输入，得到基于当前实时数据状态S＇所预估的可选调度策略动作A＇以及实时数据状态S＇采用调度策略动作A＇进行调度作业所花费的时间T，并将时间T按照从小到大排序；

S6.若时间T均不相等，将时间T最小时对应的调度策略动作A＇选定为最优调度策略动作，作为下一步执行的调度动作；若存在多个相等的最小时间T，选取动作评估值Q最大的调度策略动作A＇作为最优调度策略动作；

S7.重复步骤S5～S6，动态更新调度策略，直至车间生产作业完成；

步骤S1所述的采集的车间生产作业数据包括：车间操作工人的技术水平的数据、生产设备的工作状态的数据、待加工工件的信息数据、产品各种指标的精度和制造节点的上下游节点状态在内的“人、机、物、法、环”各种维度数据；

步骤S2所述的采集的车间生产作业数据进行预处理的过程包括：清洗车间生产作业数据，处理车间生产作业数据中的错误值和缺失值，根据数据错误或缺失的情况，按行或按列删除；对于缺失值，根据在车间制造实际情况下的数据自身属性，采用均值或中位数或众数作为中心度量值来填补缺失数据；

把有量纲的数据映射到无量纲的离散数据空间，即把车间生产作业过程中所得到的数据进行离散化处理；在不丢失所需要信息的前提下，把采集到的数据进行数字化、离散化、去单位化描述，构建无量纲的数据；

步骤S2中所述的构建制造节点的多维数据状态，按时间序列顺序链接形成制造节点的马尔科夫状态视图的过程包括：

采集的车间生产作业数据为多源异构数据，将采集的车间生产作业数据根据车间作业生产逻辑进行链接集成，通过以下方式的状态集合：单个制造节点状态<维度1状态，维度2状态，维度3状态，......，维度i状态>对车间中制造节点的多维数据状态进行表达，构建出每个制造节点的多维数据状态，每一个维度状态包括或部分包括了人力维度、物料维度、生产设备维度，工艺维度和环境维度的采集数据；其中，人力维度包括当前制造节点的操作工人的技能熟练度、监控人员的管理水平，物料维度包括订单工件编号、工件数目、及类型，生产设备维度包括生产设备的工作状态、类型、维护时间和忙闲情况；工艺维度包括加工精度、作业规范及产品标准，环境维度包括车间的生成上下文及自然环境因素；

所有制造节点链接起来形成整个车间智能制造系统，将各个制造节点的多维数据状态映射到车间生产的所有制造节点中，从时间上截取车间制造过程中某一个瞬间的俯视全景数据视图，将各个制造节点基于某个瞬间的作业数据映射，把所有车间制造节点和各种“人、机、物、法、环”约束维度一一映射，对每一个制造节点进行编号，通过以下方式的状态集合：智能制造系统状态<制造节点1的状态，制造节点2的状态，......，制造节点j的状态>把包含所有制造节点整个智能制造系统的数据状态表示出来；将整个智能制造系统的数据状态视图根据车间生产作业过程的各个瞬间逐个表达出来，按照时间序列顺序连接，通过以下方式的时间序列顺序：智能制造系统马尔科夫状态过程<系统的状态T1，系统的状态T2，......，系统的状态Tk>

将智能制造系统制造节点的各个维度状态数据信息串联起来，形成符合车间生产顺序的数据状态，得到完整车间生产过程中制造物联网映射的马尔科夫状态视图及其状态演变；

离散制造车间的制造节点的当前数据状态S包括制造节点的忙闲状况、容量、忙时状态的节点正在操作的订单的数目以及订单编号；离散制造车间的制造节点的各个数据状态S按时间顺序串联成为完整的智能制造系统马尔科夫状态过程；调度策略动作A表达为，其中，JOBID表示某个订单编号的作业，MNID是某一个编号的节点，表达当前某一个作业JOBID在调度时选择在节点MNID上进行加工、流转或等待；

步骤S4所述的基于DDQN的当前目标Q网络包括负责动作获取的现实网络Current_Net和负责动作价值计算的目标网络Target_Net，现实网络Current_Net和目标网络Target_Net结构相同；以马尔科夫状态视图中制造节点的各个数据状态S作为当前目标Q网络的输入，以执行各个调度策略动作A的动作评估值Q作为当前目标Q网络的输出，各个调度策略动作A的动作评估值Q组成Q值表，某一调度策略动作A的动作评估值Q越大，调度策略动作的价值越大，合理性越高；

当前目标Q网络的训练过程为：

将样本i，i∈(1，k)中制造节点的下一个数据状态S+1分别输入现实网络Current_Net和目标网络Target_Net，得到Cur_Q值表和Tar_Q值表；

获取样本i，i∈(1，k)在Cur_Q值表中动作评估值Q最大的索引动作，再利用该索引动作检索Tar_Q值表，得到对应调度策略动作的Tar_Q值；

创建存储k条样本Q值数据的列表Q_batch，每条样本按照：

Qi＝样本i的奖励Ri+GAMMA*样本i对应的Tar_Q值

分别计算对应的Q值并载入列表Q_batch中，用于损失函数计算；

将k条样本中的当前数据状态S输入现实网络Current_Net，得到当前状态的现实Q值，同时将k条样本所得k个现实Q值存入Current_Net_Q列表，用于损失函数计算；

设损失函数Cost为：

Cost＝Q_batch‑Current_Net_Q

利用优化器对损失函数进行优化计算，直至收敛；训练过程中，更新当前目标Q网络的频率为f，将现实网络Current_Net的参数每训练f步，更新一次目标网络Target_Net的参数，得到训练好的深度目标Q网络。

2.根据权利要求1所述的基于DDQN的智能车间动态自适应调度方法，其特征在于，步骤S1中，利用Agent模型采集车间生产作业数据，Agent模型由智能车间的主动采集对象设备和被动采集对象设备封装而成，主动采集对象设备包括自动RFID采集设备或条码采集终端、智能设备工控下位机、PLC控制器、数据采集终端及能共享部分数据的应用系统；被动采集对象设备的被动采集对象包括通过添加RFID/自动ID标签进行绑定标识的工件、配件、物料、生产设备、工具及操作工人，Agent模型利用主动采集对象设备实时采集车间作业的数据，被动采集对象在车间生产作业过程中流转，自身已绑定标识的数据信息被主动采集对象捕捉，被动采集对象设备配合主动采集对象设备采集车间作业数据，并进行上报。

3.根据权利要求1所述的基于DDQN的智能车间动态自适应调度方法，其特征在于，步骤S5中，将深度目标Q网络的输出表示为，构建JOB表(JOBID，MNID，Q，T)，JOB表(JOBID，MNID，Q，T)表征为一个按照时间T从小到大排序的矩阵，JOB表中的组合为调度策略动作A＇。

4.根据权利要求3所述的基于DDQN的智能车间动态自适应调度方法，其特征在于，步骤S6中，在基于JOB表(JOBID，MNID，Q，T)的前提下，若JOB表(JOBID，MNID，Q，T)中时间T均不相等，将时间T最小时对应的调度策略动作A＇对应的选定为最优调度策略动作，作为下一步执行的调度动作；若存在多个相等的最小时间T，选取动作评估值Q最大的调度策略动作A＇对应的作为最优调度策略动作。

5.根据权利要求4所述的基于DDQN的智能车间动态自适应调度方法，其特征在于，步骤S7中所述重复步骤S5～S6，动态更新调度策略时，在时间T最小时对应的调度策略动作A＇对应的被选定为最优调度策略动作，且已执行后，JOB表(JOBID，MNID，Q，T)中的对应行删除，从而刷新JOB表(JOBID，MNID，Q，T)，直至JOB表(JOBID，MNID，Q，T)为空。

6.一种基于DDQN的智能车间动态自适应调度系统，所述系统用于实现权利要求1所述的基于DDQN的智能车间动态自适应调度方法，其特征在于，包括：数据采集模块，用于采集车间生产作业数据，车间生产作业数据包括上报至数据预处理及状态建模模块为算法训练准备的车间生产作业历史数据，以及上报至数据预处理及状态建模模块的实时车间生产作业数据；

数据预处理及状态建模模块，用于对车间生产作业数据进行预处理，然后构建制造节点的多维数据状态，按时间序列顺序链接形成制造节点的马尔科夫状态视图，完成数据状态建模；

算法样本准备模块，用于随机获取状态建模后的数据，每一条数据中存在表征离散制造车间的制造节点的当前数据状态S、基于当前数据状态S所采取的调度策略动作A、当前数据状态S执行调度策略动作A后的奖励R、制造节点的下一个数据状态S+1及车间生产作业过程的末状态D，一次选取k条数据作为样本；

Q网络构建训练模块，用于确定基于DDQN的当前目标Q网络，以马尔科夫状态视图中制造节点的各个数据状态S作为当前目标Q网络的输入，以执行各个调度策略动作A的动作评估值Q作为当前目标Q网络的输出，基于样本训练当前目标Q网络，得到训练好的深度目标Q网络；

实时自适应调度准备模块，用于确定制造节点的实时数据状态S＇，将实时数据状态S＇作为训练好的深度目标Q网络的输入，得到基于当前实时数据状态S＇所预估的可选调度策略动作A＇以及实时数据状态S＇采用调度策略动作A＇进行调度作业所花费的时间T，将时间T按照从小到大排序；

动态自适应调度匹配模块，在时间T均不相等时，将时间T最小时对应的调度策略动作A＇选定为最优调度策略动作，作为下一步执行的调度动作；若存在多个相等的最小时间T时，选取动作评估值Q最大的调度策略动作A＇作为最优调度策略动作；且动态更新调度策略，直至车间生产作业完成。

推荐专利

复杂地质环境下空间姿态自适应智能靶向钻具系统

发明专利

￥26400

智能车间基于物联网技术高速传输动态调度信息的方法及系统

我要求购

您有专利需要变现?

我要出售

智能匹配需求，快速出售

摘要:

权利要求书:

利索能及

友情链接

关于我们

联系我们