利索能及
我要发布
收藏
专利号: 2023100333831
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:授权未缴费
更新日期:2025-07-12
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于深度价值网络的家电维修派单方法,其特征在于,所述方法包括:

获取家电维修师的信息和家电维修订单的信息;所述家电维修师的信息包括出勤状态表和出勤日期,所述家电维修订单的信息包括下单时间,预约时间和预计维修时间;

对家电维修师和家电维修订单进行模拟派单,若不出现时间冲突,则将家电维修师的出勤状态表进行变更,并给予家电维修师一个即时奖励,此时匹配可能成功;若出现时间冲突,则无法得到奖励,同时家电维修师的出勤状态表不会变更,此时匹配失败,流程终止;

将匹配可能成功的家电维修师变更后的出勤状态表和出勤日期输入到深度价值网络中,得到家电维修师接受家电维修订单后的潜在奖励;

根据家电维修师与家电维修订单匹配产生的即时奖励,以及家电维修师接受家电维修订单后的潜在奖励,计算出家电维修师与家电维修订单的匹配权重;

根据匹配权重对家电维修师和家电维修订单进行派单,若家电维修师和家电维修订单匹配成功,则将家电维修师和家电维修订单匹配过程的信息存储到经验池供所述深度价值网络进行训练与修正;若家电维修师与家电维修订单匹配失败,流程终止。

2.根据权利要求1所述的一种基于深度价值网络的家电维修派单方法,其特征在于,所述家电维修师的出勤状态表进行变更包括将初始时刻到下单时间的前一时刻对应的时间间隔设置为不可匹配时间段;将预约时间到预约时间与预计维修时间对应的时间间隔设置为不可匹配时间段。

3.根据权利要求1所述的一种基于深度价值网络的家电维修派单方法,其特征在于,深度价值网络家电维修师接受家电维修订单后的潜在奖励的过程将家电维修师映射为深度价值网络中的智能体,智能体根据其状态、动作、奖励以及派单策略确定出家电维修师接受家电维修订单后的潜在奖励。

4.根据权利要求3所述的一种基于深度价值网络的家电维修派单方法,其特征在于,所述智能体的状态包括家电维修师的出勤日期和出勤状态表;所述智能体的动作包括家电维修师接受了某一家电维修订单后或者随着时间流逝导致自身状态发生了改变;所述智能体的奖励包括家电维修师与家电维修订单匹配时所收到的即时奖励;所述智能体的策略包括智能体执行了某个家电维修订单匹配动作从而使得智能体的状态发生了转移,并且在转移过程中得到了即时的奖励的策略过程。

5.根据权利要求1所述的一种基于深度价值网络的家电维修派单方法,其特征在于,家电维修师接受家电维修订单后的潜在奖励由深度价值网络计算得到,通过逐层传递信息,在最初一层神经元输入家电维修师的出勤状态表和出勤日期,在最后一层神经元输出预测的潜在奖励;其逐层传递信息的计算公式表示为:(l) (l)

a =fl(z )

(l) (l) l‑1 (l)

z =w ·a +b

(l) (l) (l)

其中,a 表示第l层神经元输出的信息,z 表示第l层神经元输入的信息;w 表示从(l) (l)l‑1层到l层的权重矩阵,b 表示从l‑1层到l层的权重矩阵偏置,fl(z )表示第l层神经元的激活函数;l∈{1,2,…K},K表示深度价值网络的神经层数量。

6.根据权利要求1所述的一种基于深度价值网络的家电维修派单方法,其特征在于,家电维修师与家电维修订单的匹配权重的计算公式表示为:ρij=r+θt·r'

其中,ρij表示家电维修师ri与家电维修订单oj的匹配权重,r表示家电维修师ri与家电维修订单oj匹配产生的即时奖励,θt表示潜在奖励在时刻t的权重系数;r′表示家电维修师ri接受家电维修订单oj后的潜在奖励。

7.根据权利要求6所述的一种基于深度价值网络的家电维修派单方法,其特征在于,所述潜在奖励的权重系数的计算方式包括:其中,γ表示折扣因子,wt表示潜在奖励在时刻t的权重系数,其根据出勤日期属于旺季或淡季决定;Ot表示当前家电维修订单数量,th表示家电维修订单数量阈值。

8.根据权利要求7所述的一种基于深度价值网络的家电维修派单方法,其特征在于,所述家电维修订单数量阈值的计算方式包括:其中, 表示历史出勤日期(1,…,d‑1)在时刻t的平均订单量,N表示超过平均订单量所占百分比。

9.根据权利要求1所述的一种基于深度价值网络的家电维修派单方法,其特征在于,所述根据匹配权重对家电维修师和家电维修订单进行派单包括采用贪心算法选择匹配权重最大的家电维修师与家电维修订单进行匹配,或者还包括使用KM算法根据匹配权重计算最大匹配值来得到匹配结果,按照匹配结果对家电维修师和家电维修订单进行派单。

10.根据权利要求1所述的一种基于深度价值网络的家电维修派单方法,其特征在于,所述将家电维修师和家电维修订单匹配过程的信息存储到经验池供所述深度价值网络进行训练与修正包括采用家电维修师的历史信息和家电维修订单的历史信息对所述深度价值网络进行离线训练;通过家电维修师的在线信息和家电维修订单的在线信息,计算出通过离线训练后的深度价值网络的价值损失,通过反向传播对所述深度价值网络进行在线训练,对所述神经价值网络进行修正。