1.一种基于深度强化学习的目标驱动计算卸载方法,其特征在于,将无线通信场景建模为包括源节点、目标节点、计算节点、普通节点的网络,所述源节点为计算任务发布节点,目标节点为计算任务结果目的地节点,计算节点为计算服务器节点,普通节点为提供中继服务的节点;
将源节点到目的节点的计算任务卸载过程建模成马尔科夫决策过程,从源节点开始,当前节点通过深度强化学习到的神经网络计算得到下一跳的选择与计算卸载策略,直至完成计算卸载任务;深度强化学习网络的输入为马尔科夫状态空间,记为观测状态,输出为对应观测状态下的最佳计算卸载策略;
所述观测状态包括:任务类型特征与普通输入特征,所述任务类型特征具体为代表任务优先级或者时延敏感度的非数值特征,普通特征为除去任务类型特征后的其他特征;
还包括采用任务信息增强模块对输入深度强化学习网络的观测状态进行处理,具体的:所述任务信息增强模块为基于MoE混合专家系统,所述基于MoE混合专家系统包括:子网络与门控网络;所述子网络包括多个专家网络,每个专家网络对应当前任务类型的一种计算卸载策略,所述专家网络的输入为普通输入特征;所述门控网络的输入为任务类型特征,输出为对应专家网络输出的权重;每个专家网络的输出分别与对应的权重进行加权求和结果作为MoE混合专家系统的输出。
2.根据权利要求1所述的一种基于深度强化学习的目标驱动计算卸载方法,其特征在于,所述计算策略具体为当前节点需要卸载计算任务的比例与其对应的下一跳节点,若当前节点为普通节点,则卸载比例为0。
3.根据权利要求2所述的一种基于深度强化学习的目标驱动计算卸载方法,其特征在于,马尔科夫决策过程的奖励为关于任务整体时延与能量方差变化的函数。
4.根据权利要求3所述的一种基于深度强化学习的目标驱动计算卸载方法,其特征在于,还包括将普通输入特征拼接到MoE混合专家系统的输出后面。
5.根据权利要求4所述的一种基于深度强化学习的目标驱动计算卸载方法,其特征在于,所述任务类型特征采用One‑Hot编码进行表示。
6.根据权利要求5所述的一种基于深度强化学习的目标驱动计算卸载方法,其特征在于,所述深度强化学习网络,将本身连续的动作计算卸载比例Aprop离散成从0.0到1.0的11个动作,结合节点规模N,产生一个11×N的二维离散动作空间;从该二维离散动作空间中筛选出的最佳动作即为最佳下一跳与计算卸载策略。
7.根据权利要求6所述的一种基于深度强化学习的目标驱动计算卸载方法,其特征在于,还包括中心服务器,所述中心服务器根据各个计算节点将收集到的数据,整合全局的数据后训练出一个适用于所有计算节点的深度学习神经网络;然后将网络参数传递给各计算节点;
其中,S表示状态空间,A表示动作空间,R表示奖励,S′表示马尔科夫转移过程中的下一状态空间。
8.根据权利要求7所述的一种基于深度强化学习的目标驱动计算卸载方法,其特征在于,还包括训练服务器,基于收集到的当前节点的状态空间,在本地模拟并记录目标驱动计算卸载过程,离线地学习最佳目标计算卸载策略,更新完当前节点的深度强化学习到的神经网络后再将其参数广播到其他各个节点。