利索能及
我要发布
收藏
专利号: 2021100109682
申请人: 广东工业大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-10-14
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种接单辅助决策的联邦强化学习方法,其特征在于,包括:数据采集和处理,各智能体分别收集历史订单数据,然后提取历史订单数据的属性,将所述历史订单数据作为训练数据;

建立模型,根据历史订单数据建立环境模型,各所述智能体建立本地决策模型,所述环境模型模拟当前状态S;所述环境模型设有奖励函数,当所述本地决策模型根据当前状态S对新订单做出接受或拒绝动作后,环境模型对所述本地决策模型的接受或拒绝动作做出相应的奖励;

训练本地决策模型,各所述智能体各自利用所述训练数据对所述本地决策模型进行训练;

联合各方数据进行联邦强化学习,各智能体将训练过程中的所得到的梯度信息加密成加密信息,然后发送至聚合方;所述聚合方接受各智能体的加密信息,然后解密得到各智能体的梯度信息,所述聚合方对所有的智能体的梯度信息进行整合,并训练聚合模型,然后将训练后的聚合模型发送至各个智能体;

依次按照以下步骤进行联邦强化学习:步骤A、各个所述智能体分别根据对所述环境模型的观察结果进行动作决策;

步骤B、所述环境模型向所述智能体反馈结果,反馈结果包括新的状态St+1和奖励;

步骤C、各个所述智能体将得到的反馈结果放入各自的所述强化学习算法中对所述本地决策模型进行强化学习训练,并计算中间结果,然后将所述中间结果加密并发送给所述聚合方;

步骤D、所述聚合方对所有的中间结果进行解密,并使用全部聚合的梯度信息对聚合模型进行训练;

步骤E、聚合方将训练后的聚合模型发送给各个所述智能体;

当所述本地决策模型作出接受动作,所述环境模型计算立即接受订单的奖励ra:其中,R为订单利润,Tw为完工期,b为订单成本,c为订单碳耗量,Ty为延期时间,w为延期单位惩罚,J为客户等级;

当所述本地决策模型作出拒绝动作后,所述环境模型给予的奖励为0或者所述环境模型根据客户等级给予惩罚。

2.根据权利要求1所述的一种接单辅助决策的联邦强化学习方法,其特征在于,采用强化学习算法对本地决策模型进行训练;所述强化学习算法包括策略网络π和价值网络q,所述策略网络π用于计算所述本地决策模型做出模拟的接受或拒绝动作的概率分布,然后随机抽样得到动作;所述价值网络q用于对每一个模拟的动作根据当前状态S进行打分,并选出分值最大的动作。

3.根据权利要求2所述的一种接单辅助决策的联邦强化学习方法,其特征在于,对所述本地决策模型的训练过程包括以下步骤:步骤1、所述本地决策模型观察旧的状态St,策略网络π根据所述旧的状态St计算出每个动作的概率分布,然后根据概率分布随机抽样获得动作at;

步骤2、所述智能体执行动作at,所述环境模型更新到新的状态St+1,并给出奖励rt;

步骤3、以新的状态St+1作为输入,策略网络π计算每个动作的概率分布,然后根据概率分布随机抽样得到新的动作a't+1;

步骤4、所述价值网络q先以所述旧的状态St和动作at作为输入,算出打分qt;然后所述价值网络q以新的状态St+1和新的动作a't+1作为输入,算出打分qt+1;

步骤5、计算TD‑error的值δt:δt=qt‑(rt+γ·qt+1)其中,γ为价值网络的学习率;

步骤6、对所述价值网络q进行求导,计算价值网络q关于w的剃度dw,t:其中,w价值网络参数;

步骤7、使用TD算法用梯度下降来对所述价值网络q进行更新;

步骤8、对策略网络π进行求导:其中,θ为策略网络参数;

步骤9、用梯度上升来对策略网络π进行更新:θt+1=θt+β·qt·dθ,t;

其中,β为策略网络的学习率;

每次训练依次执行以上步骤,每次训练中只执行一次动作,观测一个奖励,并更新一次所述价值网络参数和所述策略网络参数。

4.根据权利要求3所述的一种接单辅助决策的联邦强化学习方法,其特征在于:在联邦强化学习的过程中,各所述智能体采用同态加密、多方安全计算或随机噪声对训练过程中的梯度信息进行加密。

5.根据权利要求4所述的一种接单辅助决策的联邦强化学习方法,其特征在于,各智能体在收集历史订单数据后,对历史订单数据进行预处理:

1)、通过One‑hot编码对顾客等级具有多个候选值的订单进行处理,除了所述订单的顾客等级设置为1,其他顾客的等级都设置为0;

2)、采用画箱线图的方法对历史订单数据中存在的异常数据进行剔除;

3)、对订单样本进行均衡化,增加小类样本的权重,并降低大类样本的权重。