1.一种基于边缘计算和元深度强化学习的多任务路由优化方法,其特征在于,包括:S1:构建基于边缘计算和元深度强化学习网络框架,该网络框架包括集中式控制器和终端设备;
S2:终端设备入网将路由任务发送给集中式控制器;
S3:集中式控制器根据路由任务构建子模型,并采用优化的元模型对子模型中的参数进行更新;将更新后的子模型参数发送给终端设备;
S4:终端设备根据子模型参数对本地模型参数进行更新,并获取终端的设备的局部状态信息,将局部状态信息输入到参数更新后的本地模型中,得到局部状态信息对应的动作;
S5:终端设备根据得到的动作与环境进行交互,得到经验信息;将经验信息和路由任务ID发送给集中式控制器;
S6:集中式控制器计算经验信息的引导奖励值,并采用引导奖励值对经验信息进行更新;根据更新后的经验信息执行路由;
S7:将更新后的经验信息存储到的经验池中;
S8:根据更新后的经验池和子模型对元模型进行优化更新。
2.根据权利要求1所述的一种基于边缘计算和元深度强化学习的多任务路由优化方法,其特征在于,终端设备的路由任务包括路径、数据传输时延、吞吐量、网络生存时间以及数据传输可靠性。
3.根据权利要求1所述的一种基于边缘计算和元深度强化学习的多任务路由优化方法,其特征在于,采用优化的元模型对子模型中的参数进行更新的过程包括:步骤1:集中式控制器从经验池中抽取mini‑batch样本ej=
2,...,k;其中,sj表示当前时刻终端设备执行任务j的局部状态信息,aj表示当前时刻执行任务j时局部状态信息对应的动作,rj表示执行任务j对应的奖励值,s′j表示下一时刻终端设备执行任务j局部状态信息,mini‑batch表示小批量;
步骤2:根据获取的样本计算Target Q值;其中,Target Q表示深度强化学习模型中策略Main网络的状态‑动作值函数值;
步骤3:根据Target Q值计算均方误差,并采用基于深度网络的梯度反向传播更新Critic main网络参数ω;Critic main表示深度强化学习模型中评估Main网络;
步骤4:计算J(θ),并采用神经网络的梯度反向传播来更新Actor main策略网络的参数;其中,J(θ)表示Actor main网络的损失函数,θ表示Actor main策略网络参数,Actor main表示深度强化学习模型中策略Main网络;
步骤5:重复步骤3~步骤4,直到子模型收敛时,输出更新后的子模型参数。
4.根据权利要求1所述的一种基于边缘计算和元深度强化学习的多任务路由优化方法,其特征在于,所述S5中的经验信息为e=,其中s表示当前时刻的局部状态信息,a表示当前时刻局部状态信息对应的动作,r表示环境反馈的奖励信息,s′表示下一时刻局部状态信息。
5.根据权利要求1所述的一种基于边缘计算和元深度强化学习的多任务路由优化方法,其特征在于,计算经验信息的引导奖励值的公式为:max
其中,s表示当前时刻的局部状态信息,a表示当前时刻局部状态信息对应的动作,riave表示该任务对应的最大奖励值,β表示权重因子,ri表示即时奖励值,ri 表示该任务下最低可接受的奖励值。
6.根据权利要求1所述的一种基于边缘计算和元深度强化学习的多任务路由优化方法,其特征在于,采用引导奖励值对经验信息进行更新包括对经验信息中的环境反馈的奖励信息,其表达式为:guide
ri=λri+(1‑λ)rt
guide
其中,λ表示权重因子,rt 表示引导奖励值。
7.根据权利要求1所述的一种基于边缘计算和元深度强化学习的多任务路由优化方法,其特征在于,根据更新后的经验池和子模型对元模型进行优化更新的过程包括:步骤1:初始化元模型的参数和GRU优化器的参数
步骤2:从更新后的经验池中随机采样,得到一个batch,并将该数据作为训练数据;
步骤3:根据当前时刻的子模型的优化参数计算元模型的损失函数值,并根据损失函数值计算此时元模型参数θt的梯度步骤4:将梯度 和GRU优化器前一时刻的隐藏层信息作为当前时刻GRU优化器的输入,得到θt的更新梯度gt;
步骤5:采用更新梯度gt对元模型参数θ进行更新;
步骤6:采用损失函数更新GRU优化器的参数
8.根据权利要求7所述的一种基于边缘计算和元深度强化学习的多任务路由优化方法,其特征在于,采用更新梯度gt对元模型参数θ进行更新的公式为:其中,θt表示t时刻的元模型参数,gt表示更新梯度, 表示元模型在t时刻的θt梯度值。
9.根据权利要求7所述的一种基于边缘计算和元深度强化学习的多任务路由优化方法,其特征在于,GRU模型的损失函数表达式为:其中,Ef[.]表示 的均值,T表示总时间步长,wt表示迭代优化过程中不同迭代次数的重要程度,f(θt)表示元模型的输出值,θt表示元模型的参数。
10.根据权利要求7所述的一种基于边缘计算和元深度强化学习的多任务路由优化方法,其特征在于,GRU模型参数更新表达式为:其中,δ为GRU网络的学习率, 为GRU网络参数 的梯度值。