买专利、卖专利、专利购买、专利交易、专利出售、高企申报-密集部署NTN物联网网络的资源分配方法及系统

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

密集部署NTN物联网网络的资源分配方法及系统

￥19200

专利号： 2024105494069

申请人：重庆理工大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-06-16

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.密集部署NTN物联网网络的资源分配方法，其特征在于，包括步骤：S1、构建密集部署NTN物联网网络模型；

密集部署NTN物联网网络模型包括N个随机分布在地面上的物联网设备即IoTD、L个驻停在预定位置的无人机、M条D2D信道即DL，还包括云服务器；D2D信道通过指定频谱进行通信，该频谱被分配用于IoTD之间的通信，频谱资源均匀分布在K个可用资源块即RB中，无人机充当非地面基站，协助IoTD将收集到的数据发送到云服务器进行聚合，云服务器又将RB分配的结果反馈给IoTD，IoTD利用D2D通信模式建立自组织网络；

S2、基于密集部署NTN物联网网络模型的信道冲突关系构建超图干扰模型；

S3、基于密集部署NTN物联网网络模型、超图干扰模型，以零信道冲突为约束条件，以最大化模型吞吐量为目标构建优化问题；

S4、对优化问题进行求解，获取资源分配方案；

所述步骤S4具体为：

将优化问题构建为马尔科夫决策问题；

将每一个DL视为一个独立的智能体，对马尔科夫决策问题采用深度强化学习算法，通过与环境的交互和迭代实验，使智能体获得设计最佳资源分配策略的能力，从而进行资源分配；

在马尔科夫决策问题中，每一个智能体与环境交互，在时刻t观察所有状态S，并基于当前状态st∈S和策略π，选择动作空间A中的最优动作at，得到下一个状态st+1，并获得奖励Rt；

通过与环境的持续交互，在每个时刻t，智能体积累了表示为{st,at,Rt,st+1}的经验，并将这些经验存储在Q表中，该Q表充当智能体学习的存储库，通过利用Q表，状态‑动作映射函数通过持续的交互逐渐完善；最优策略通过最大化动作价值函数Qπ(s,a)得出：其中，γ∈(0,1)衰减因子，表示从当前状态st到下一状态st+1的转移概率，表示在状态s执行动作a后立即获得的奖励，表示从下一个状态st+1开始，使用策略π选择动作at+1的Q值函数；

最优动作选择策略表示为：

其中，Q(st,at)表示在状态st的情况下选择动作at的Q值；

Q表不断更新以学习最优策略并记录最优Q值最优Q值定义为：其中，Qπ(st,at)表示在最优策略下在状态st的情况下选择动作at的Q值；

在时刻t，Q值的更新过程如下：

(t+1) (t) t

Q (s′,a′)←Q (s,a)+β·L ,

(t+1)

其中，Q (s′,a′)表示更新得到的下一时刻t+1所对应的下一状态s′、下一动作a′的Q(t)值，Q (s,a)表示更新前即当前时刻t所对应的当前状态s、当前动作a所对应的Q值，β表示t学习率，L表示时间差分误差即t时刻预测值与目标值之间的差值；

L由下式计算：

其中，表示在时刻t的预测的Q值，表示目标值，r表示当前t t

状态s执行动作a获得的奖励，Q (s,a)表示t时刻状态s的时候，选择动作a的Q值，maxa′Q(s′,a′)表示从下一个状态s开始，选择让Q值最大的动作a所能获得的最大期望累计奖励。

2.根据权利要求1所述的密集部署NTN物联网网络的资源分配方法，其特征在于，在步骤S3中，所述优化问题构建为：s.t.c＝0

其中，max表示最大化，s.t.表示需满足，λ1和λ2分别为第一权重系数和第二权重系数，B为信道带宽，为第m个DL在分配的第k个RB处的SINR值，SINR表示信号干扰加噪声比，为t时刻使用的RB数量，为t时刻第m个DL的传输速率，为第m个DL的最小传输速率，c为超图干扰模型的冲突度，c定义为超图干扰模型中共享相同颜色的节点的数量，KRB为RB集合。

3.根据权利要求2所述的密集部署NTN物联网网络的资源分配方法，其特征在于，由下式计算：其中，Pm[k]表示第m个DL在分配的第k个RB上的发射功率，hm[k]表示第m个DL在分配的第k个RB上的信道功率增益，Pn[k]表示第n个IoTD在分配的第k个RB上的信道功率增益，hn,m[k]表示第m个DL在分配的第k个RB上来自第n个IoTD的干扰功率增益，Nm表示第m个DL在分2

配的第k个RB上所受到IoTD干扰的IoTD集合，σ为恒定噪声功率。

4.根据权利要求3所述的密集部署NTN物联网网络的资源分配方法，其特征在于，所述步骤S2具体包括步骤：S21、基于图理论，将密集部署NTN物联网网络模型建模为图代表N个IoTD所组成的节点集合，代表M条DL组成的

集合；

S22、基于直接冲突和间接冲突的定义，将所有具有直接冲突关系的DL连接起来得到直接冲突图，将所有具有间接冲突关系的DL连接起来得到间接冲突图，若两个D2D对共享相同的IoTD则该两个D2D对为直接冲突，若两个D2D对中的每一对在彼此的通信范围内都有一个IoTD则该两个D2D对为间接冲突；

S23、将直接冲突图和间接冲突图进行结合，得到密集部署NTN物联网网络模型的冲突图；

S24、利用团理论和超图理论对冲突图进行简化，得到冲突超图即超图干扰模型。

5.根据权利要求4所述的密集部署NTN物联网网络的资源分配方法，其特征在于，所述步骤S24具体包括步骤：S241、找到冲突图中的所有极大团；

S242、将每个计算出的极大团构造为超边，得到冲突超图。

6.根据权利要求1所述的密集部署NTN物联网网络的资源分配方法，其特征在于，将DL视为智能体时，每个智能体在时间t的可观察状态空间St表示为：其中，表示t时刻所有DL的干扰情况集合，表示t时刻的干扰超图的关联矩阵，表示t时刻所有DL的SINR集合，表示t时刻所有DL的RB分配集合，表示t时刻的最低速率要求集合；

当DL收到服务请求时，观察当前状态并做出相应的RB选择动作，在时刻t、在状态s下执行动作t所获得的奖励R(s,a；t)定义为：其中，λ3,λ4∈(0,1)分别是第三权重系数和第四权重系数，代表奖励的不同部分对总奖励的贡献程度；是网络吞吐量，表示t时刻所有节点的传输速率之和，是第m个节点的传输速率；是t时刻第m个节点的SINR，表示第m个节点的最小SINR。

7.根据权利要求6所述的密集部署NTN物联网网络的资源分配方法，其特征在于：所采用的深度强化学习算法为决斗双深度Q网络算法，决斗双深度Q网络算法采用决斗双深度Q网络作为基础网络架构，决斗双深度Q网络包括目标网络和在线网络，在线网络用于计算当前状态下的Q值，其参数在每次迭代中都会根据损失函数更新；目标网络主要用于计算目标Q值，其参数被定期更新；

决斗双深度Q网络的损失函数为：

其中，η为折扣因子，J(w；b)表示针对单个经验样本b的损失计算，E表示经验池，D表示样本数量；

采用联邦学习架构对决斗双深度Q网络进行训练，具体为：

服务器维护全局模型，并使用预训练模型作为第一轮全局模型；在下一轮训练中，将选择既定比例的智能体来传输全局模型，并使用决斗双深度Q网络算法来训练和更新模型；在训练期间，智能体利用其本地小批量样本来最小化损失函数；每轮训练结束时，对训练好的局部模型参数进行加权平均，得到全局模型参数，并相应地更新全局模型；如此迭代训练直到全局模型收敛。

8.密集部署NTN物联网网络的资源分配系统，其特征在于：包括通信模型构建模块、超图干扰模型构建模块、优化问题构建模块、资源分配模块；所述通信模型构建模块、所述超图干扰模型构建模块、所述优化问题构建模块、所述资源分配模块分别用于执行权利要求1～7任一项所述的步骤S1、S2、S3、S4。