利索能及
我要发布
收藏
专利号: 2022112611477
申请人: 兰州交通大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-05-07
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于DQN的自适应边缘计算任务调度方法,其特征在于,包括如下步骤:

1)当神经网络的训练步数为指定复制参数步数的倍数,则将DQN中评估网络参数复制到目标网络;当神经网络的训练步数为指定回放经验步数的倍数,则回放经验池中的学习经验且清空经验池;

2)获取计算节点配置信息、终端设备配置信息和任务配置信息作为环境状态信息,正规化后作为深度强化学习神经网络的输入;所述环境状态信息由计算任务数据大小、所需计算资源数、所需存储资源数和所有计算节点可用计算资源数、可用存储资源数信息组成,即其中,statei表示计算任务与第i个计算节点的状态信息;ds,tc,ts分别为计算任务的数据大小、所需计算资源数、所需存储资源数;nc,ns分别为计算节点可用计算资源数、可用存储资源数;

3)分别获得评估网络和目标网络的输出并结合上一次训练的损失值通过综合性Q值计算方法计算神经网络的最终输出并以此作为任务与计算节点的适配度值;综合性Q值具体计算公式如下:其中,TNet、ENet分别为目标网络和评估网络,OT、OE分别为目标网络和评估网络的输出,Loss为上一次迭代的损失;

4)基于自适应动态动作空间探索度调整策略,以神经网络的最终输出和近几次训练的损失值以一定概率为任务选择最大适配度值所对应的计算节点,否则随机选择计算节点;

所述自适应动态动作空间探索度调整策略具体如下:

其中,rd为随机数生成函数,用于生成[0,1]范围内的随机数;F值为True,则为当前待处理任务选择非最大值对应的卸载动作,为False,则选择最大值对应的卸载动作;

5)计算当前所有任务的损失值;

具体计算方法如下:

其中,output为评估网络的输出,action为动作选择;

6)基于损失值利用自适应轻量级回放机制对当前任务进行优先级排序并将优先级最高的学习经验存储到经验池中;

7)更新评估网络参数;

8)直到满足结束条件。

2.根据权利要求1所述的一种基于DQN的自适应边缘计算任务调度方法,其特征在于:步骤2)中,以在任务下划分的子任务配置信息和每个计算节点配置信息作为环境状态信息。

3.根据权利要求1所述的一种基于DQN的自适应边缘计算任务调度方法,其特征在于:步骤3)中, 所述综合性Q值计算方法中上一次训练的损失值用来衡量评估网络和目标网络在最终输出中占比,神经网络的训练初期将以目标网络的输出为主,随着训练的进行则转为评估网络的输出为主。

4.根据权利要求1所述的一种基于DQN的自适应边缘计算任务调度方法,其特征在于:步骤4)中,所述自适应动态动作空间探索度调整策略中对近几次训练的损失值计算平均值并作为计算节点选择概率的设计基础。

5.根据权利要求1所述的一种基于DQN的自适应边缘计算任务调度方法,其特征在于:步骤5)中,计算当前所有任务的损失值时采用交叉熵损失函数。

6.根据权利要求1所述的基于DQN的自适应边缘计算任务调度方法,其特征在于:步骤

6)中,所述自适应轻量级回放机制是将基于当前学习经验的损失值进行排序,又因为损失值小的学习经验容易将神经网络引导向局部最优,损失值大则远离最优解,故将中间部分的学习经验存储至经验池。