1.密集部署NTN物联网网络的资源分配方法,其特征在于,包括步骤:S1、构建密集部署NTN物联网网络模型;
密集部署NTN物联网网络模型包括N个随机分布在地面上的物联网设备即IoTD、L个驻停在预定位置的无人机、M条D2D信道即DL,还包括云服务器;D2D信道通过指定频谱进行通信,该频谱被分配用于IoTD之间的通信,频谱资源均匀分布在K个可用资源块即RB中,无人机充当非地面基站,协助IoTD将收集到的数据发送到云服务器进行聚合,云服务器又将RB分配的结果反馈给IoTD,IoTD利用D2D通信模式建立自组织网络;
S2、基于密集部署NTN物联网网络模型的信道冲突关系构建超图干扰模型;
S3、基于密集部署NTN物联网网络模型、超图干扰模型,以零信道冲突为约束条件,以最大化模型吞吐量为目标构建优化问题;
S4、对优化问题进行求解,获取资源分配方案;
所述步骤S4具体为:
将优化问题构建为马尔科夫决策问题;
将每一个DL视为一个独立的智能体,对马尔科夫决策问题采用深度强化学习算法,通过与环境的交互和迭代实验,使智能体获得设计最佳资源分配策略的能力,从而进行资源分配;
在马尔科夫决策问题中,每一个智能体与环境交互,在时刻t观察所有状态S,并基于当前状态st∈S和策略π,选择动作空间A中的最优动作at,得到下一个状态st+1,并获得奖励Rt;
通过与环境的持续交互,在每个时刻t,智能体积累了表示为{st,at,Rt,st+1}的经验,并将这些经验存储在Q表中,该Q表充当智能体学习的存储库,通过利用Q表,状态‑动作映射函数通过持续的交互逐渐完善;最优策略通过最大化动作价值函数Qπ(s,a)得出:其中,γ∈(0,1)衰减因子, 表示从当前状态st到下一状态st+1的转移概率, 表示在状态s执行动作a后立即获得的奖励, 表示从下一个状态st+1开始,使用策略π选择动作at+1的Q值函数;
最优动作 选择策略表示为:
其中,Q(st,at)表示在状态st的情况下选择动作at的Q值;
Q表不断更新以学习最优策略并记录最优Q值 最优Q值 定义为:其中,Qπ(st,at)表示在最优策略下在状态st的情况下选择动作at的Q值;
在时刻t,Q值的更新过程如下:
(t+1) (t) t
Q (s′,a′)←Q (s,a)+β·L ,
(t+1)
其中,Q (s′,a′)表示更新得到的下一时刻t+1所对应的下一状态s′、下一动作a′的Q(t)值,Q (s,a)表示更新前即当前时刻t所对应的当前状态s、当前动作a所对应的Q值,β表示t学习率,L表示时间差分误差即t时刻预测值与目标值之间的差值;
t
L由下式计算:
其中, 表示在时刻t的预测的Q值, 表示目标值,r表示当前t t
状态s执行动作a获得的奖励,Q (s,a)表示t时刻状态s的时候,选择动作a的Q值,maxa′Q(s′,a′)表示从下一个状态s开始,选择让Q值最大的动作a所能获得的最大期望累计奖励。
2.根据权利要求1所述的密集部署NTN物联网网络的资源分配方法,其特征在于,在步骤S3中,所述优化问题构建为:s.t.c=0
其中,max表示最大化,s.t.表示需满足,λ1和λ2分别为第一权重系数和第二权重系数,B为信道带宽, 为第m个DL在分配的第k个RB处的SINR值,SINR表示信号干扰加噪声比,为t时刻使用的RB数量, 为t时刻第m个DL的传输速率, 为第m个DL的最小传输速率,c为超图干扰模型的冲突度,c定义为超图干扰模型中共享相同颜色的节点的数量,KRB为RB集合。
3.根据权利要求2所述的密集部署NTN物联网网络的资源分配方法,其特征在于, 由下式计算:其中,Pm[k]表示第m个DL在分配的第k个RB上的发射功率,hm[k]表示第m个DL在分配的第k个RB上的信道功率增益,Pn[k]表示第n个IoTD在分配的第k个RB上的信道功率增益,hn,m[k]表示第m个DL在分配的第k个RB上来自第n个IoTD的干扰功率增益,Nm表示第m个DL在分2
配的第k个RB上所受到IoTD干扰的IoTD集合,σ为恒定噪声功率。
4.根据权利要求3所述的密集部署NTN物联网网络的资源分配方法,其特征在于,所述步骤S2具体包括步骤:S21、基于图理论,将密集部署NTN物联网网络模型建模为图代表N个IoTD所组成的节点集合, 代表M条DL组成的
集合;
S22、基于直接冲突和间接冲突的定义,将所有具有直接冲突关系的DL连接起来得到直接冲突图,将所有具有间接冲突关系的DL连接起来得到间接冲突图,若两个D2D对共享相同的IoTD则该两个D2D对为直接冲突,若两个D2D对中的每一对在彼此的通信范围内都有一个IoTD则该两个D2D对为间接冲突;
S23、将直接冲突图和间接冲突图进行结合,得到密集部署NTN物联网网络模型的冲突图;
S24、利用团理论和超图理论对冲突图进行简化,得到冲突超图即超图干扰模型。
5.根据权利要求4所述的密集部署NTN物联网网络的资源分配方法,其特征在于,所述步骤S24具体包括步骤:S241、找到冲突图中的所有极大团;
S242、将每个计算出的极大团构造为超边,得到冲突超图。
6.根据权利要求1所述的密集部署NTN物联网网络的资源分配方法,其特征在于,将DL视为智能体时,每个智能体在时间t的可观察状态空间St表示为:其中, 表示t时刻所有DL的干扰情况集合, 表示t时刻的干扰超图的关联矩阵,表示t时刻所有DL的SINR集合, 表示t时刻所有DL的RB分配集合, 表示t时刻的最低速率要求集合;
当DL收到服务请求时,观察当前状态并做出相应的RB选择动作,在时刻t、在状态s下执行动作t所获得的奖励R(s,a;t)定义为:其中,λ3,λ4∈(0,1)分别是第三权重系数和第四权重系数,代表奖励的不同部分对总奖励的贡献程度; 是网络吞吐量,表示t时刻所有节点的传输速率之和, 是第m个节点的传输速率; 是t时刻第m个节点的SINR, 表示第m个节点的最小SINR。
7.根据权利要求6所述的密集部署NTN物联网网络的资源分配方法,其特征在于:所采用的深度强化学习算法为决斗双深度Q网络算法,决斗双深度Q网络算法采用决斗双深度Q网络作为基础网络架构,决斗双深度Q网络包括目标网络和在线网络,在线网络用于计算当前状态下的Q值,其参数在每次迭代中都会根据损失函数更新;目标网络主要用于计算目标Q值,其参数被定期更新;
决斗双深度Q网络的损失函数为:
其中,η为折扣因子,J(w;b)表示针对单个经验样本b的损失计算,E表示经验池,D表示样本数量;
采用联邦学习架构对决斗双深度Q网络进行训练,具体为:
服务器维护全局模型,并使用预训练模型作为第一轮全局模型;在下一轮训练中,将选择既定比例的智能体来传输全局模型,并使用决斗双深度Q网络算法来训练和更新模型;在训练期间,智能体利用其本地小批量样本来最小化损失函数;每轮训练结束时,对训练好的局部模型参数进行加权平均,得到全局模型参数,并相应地更新全局模型;如此迭代训练直到全局模型收敛。
8.密集部署NTN物联网网络的资源分配系统,其特征在于:包括通信模型构建模块、超图干扰模型构建模块、优化问题构建模块、资源分配模块;所述通信模型构建模块、所述超图干扰模型构建模块、所述优化问题构建模块、所述资源分配模块分别用于执行权利要求1~7任一项所述的步骤S1、S2、S3、S4。