1.针对智能工厂毫米波网络平均信息年龄的优化调度方法,其特征在于,包括:构建使用定向传输天线的智能工厂毫米波网络模型以及传输模型系统;
定义最小化系统的长期加权平均信息年龄波束调度优化问题;
将所述智能工厂毫米波网络模型以及传输模型系统建模为马尔可夫决策过程,确定系统所处马尔可夫过程的状态空间、动作空间以及奖励函数;
采集智能工厂毫米波网络整个系统内T个时隙的参数信息,构建基于神经网络的智能调度网络,通过与环境进行交互,调整所述智能调度网络的网络参数;
训练所述智能调度网络,直至达到性能要求,根据训练好的智能调度网络,采集节点的系统状态,选择最优策略进行调度;
所述智能工厂毫米波网络模型包括基站及若干接收节点,所述基站用于向信号范围内的接收节点传输数据文件,所述基站侧面装配有定向天线,所述定向天线用于将数据文件传输给信号范围内的接收节点;所述传输模型为扇形天线模型,所述扇形天线模型的发射天线采用单个射频链的模拟波束成形技术,以集中发射信号的强度,在任意方向上调整波束宽度和波束长度,用于将波束覆盖一个节点子集;
定义最小化所述系统的长期加权平均信息年龄波束调度优化问题,包括:分别定义单个节点信息年龄的更新方式、整个系统的长期加权平均信息年龄,获得所述优化问题;
其中,定义所述单个节点信息年龄的更新方式的方法为:式中, 表示波束组 在t时隙开始传输, 为指示变量表示节点 在时隙 所要传输的剩余时隙数, 为节点i在时隙t+1的信息年龄值, 为传输波束组 所需要的时隙数, 表示节点 在时隙 所要传输的剩余时隙数, 为节点i在时隙t的信息年龄值,为被选定传输的波束组;
定义所述整个系统的长期加权平均信息年龄的方法为:式中, 为各个节点的权重参数, 为整个系统的长期加权平均信息年龄,为时间段的总长度,为节点总数,i为接收节点;
所述优化问题表示为:
式中, 表示可选波束组的总个数,j为波束组的索引;
在每个时隙 做出决策 ,目标为最小化长期加权平均信息年龄,其中约束1表示每个时隙 中只能有一个波束组进行传输,约束2表示如果波束组 在时隙 进行传输,则波束组内的所有节点在该时隙内必须没有剩余时隙需要传输;
将所述智能工厂毫米波网络模型以及传输模型系统建模为马尔可夫决策过程,确定系统所处马尔可夫过程的状态空间、动作空间以及奖励函数,包括:确认包含各节点在时隙t时的信息年龄 ,以及各节点在时隙 所要传输的剩余时隙数 ,定义所述马尔可夫过程的状态空间为二元组;
将所述马尔可夫过程的动作空间表示在时隙t调度传输波束组或者等待其他波束组传输完成;
将所述马尔可夫过程的奖励函数定义为时隙t中所有节点加权信息年龄之和的负值;
所述智能调度网络包括actor子网络和critic子网络,所述actor子网络和critic子网络采用相同的状态输入层,若干全连接层作为隐藏层,并使用Relu函数作为激活函数;其中,所述actor子网络输出表示策略的概率值向量,记为 , 为actor子网络的参数, 为动作空间, 为状态空间;actor子网络用于拟合状态到动作的映射,即策略 ,对应actor子网络根据不同系统状态做出策略的过程,其维度与动作空间的大小相等;所述critic子网络输出为当前状态值函数的估计值,用于评估从当前状态执行动作得到的预期回报;
在所述actor子网络后连接有掩码mask模块,所述掩码mask模块用于保证选取的动作都为合法,将actor的概率结果乘以一个用于约束的掩码向量 ,获得概率向量,所述概率向量经过约束处理后保留下合法动作的概率值,约束条件为:如果当前时隙有波束组未传输完毕占据信道,则同一时隙内不能调度传输其他波束组。
2.根据权利要求1所述的针对智能工厂毫米波网络平均信息年龄的优化调度方法,其特征在于,所述状态空间为:式中, 为状态空间, 为指示变量表示接收节点 在时隙所要传输的剩余时隙数, 为节点i在t时隙的信息年龄值,i为接收节点;
所述动作空间为:
其中, 表示波束组 在t时隙开始传输,当 时,对应的 表示不传输波束, 为动作空间, 表示可选波束组的总个数,j为波束组的索引;
所述奖励函数包括瞬时奖励和累积奖励,其中,所述瞬时奖励为:式中, 为t时隙的瞬时奖励,为节点的总个数, 为各个接收节点的权重参数, 为节点i在时隙t的信息年龄值;
所述累积奖励为:
式中, 为从0时隙直至t时隙的累积奖励,T为整个时间段的长度,l为时隙的索引, 为累积折扣因子, 为第l时隙的即时奖励。
3.根据权利要求1所述的针对智能工厂毫米波网络平均信息年龄的优化调度方法,其特征在于,调整所述智能调度网络的网络参数,包括:在每个时隙t的开始,将系统状态 输入所述actor子网络得到约束后的概率值向量,并通过采样选取一个动作 ;
环境在时隙t采取决策并得到瞬时奖励 ,根据t时隙的系统状态 和采取的动作,依据状态转移概率 得到下一个系统状态 ;
然后将所述系统状态 输入所述critic子网络获得状态值函数的估计值 ;
将时隙t的五元组< >作为一条经验存入经验回放缓存,用于后续网络的训练;
处理完成后步入下个时隙,重复此过程,直至达到最大时隙数T;
完成一轮交互后,计算优势函数,并且分别计算actor子网络和critic子网络的损失函数,并且更新网络参数。
4.根据权利要求3所述的针对智能工厂毫米波网络平均信息年龄的优化调度方法,其特征在于,通过反向传播方法分别计算所述actor子网络和critic子网络的梯度,更新所述网络参数,具体为:其中, 和 分别为actor子网络的学习
率和critic子网络的学习率, 和 分别为actor子网络损失函数关于网络参数的梯度和critic子网络损失函数关于网络参数的梯度, 为actor子网络的参数, 为critic子网络的参数。
5.根据权利要求1所述的针对智能工厂毫米波网络平均信息年龄的优化调度方法,其特征在于,选择所述最优策略进行调度的方法为:式中, 为基于训练好的参数 的策
略, 表示在时隙 选择的最优波束组调度策略, 为选取出t时刻使得策略值最大的 值, 表示波束组 在t时隙开始传输。