利索能及
我要发布
收藏
专利号: 2023114360444
申请人: 重庆理工大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.基于超图的B5G海量物联网资源分配方法,其特征在于,包括步骤:S1、客户端建立其B5G海量物联网的网络冲突超图模型;

S2、基于所述网络冲突超图模型建立无冲突资源管理分配的基础问题模型;

S3、设计行动价值函数和状态值函数,将所述基础问题模型转化为马尔科夫决策模型;

在所述步骤S3中,设计的行动价值函数、状态值函数分别表示为:其中,st表示在时刻t时B5G海量物联网的状态,at表示在时刻t时采取的动作,表示在状态s中执行动作a之后的预期回报, 表示状态s的预期回报, 表示期望算子;st定义为 其中 表示时刻t时的所有终

t

端设备的信号与干扰加噪声比的集合,ψ表示时刻t时的B5G海量物联网的冲突度的集合,表示时刻t时对所有终端设备最小速率要求的集合,H表示所述网络冲突超图模型的关t联矩阵,k表示时刻t时为所有终端设备分配的网络资源的集合;

所述马尔科夫决策模型的目标函数相比所述基础问题模型,其目标函数变化为:J(π)表示时刻t的累积折扣报酬, 表示时刻t的累积折扣奖励;

S4、客户端使用协作强化学习网络对所述马尔科夫决策模型进行求解,获得在每一时刻无冲突的资源分配决策;所述步骤S4中,在训练所述协作强化学习网络中,其参数更新包括步骤:t‑1 t‑1

S41、从服务器获取全局模型最新参数w 和θ ,t表示当前时刻,t‑1表示前一时刻,w和θ分别表示全局模型的协作强化学习网络的价值参数和策略参数;所述服务器的全局模型最新参数由所有客户端在本轮训练结束时的参数加权平均而得,服务器得到全局模型最新参数广播至每个所述客户端用于下一次参数更新;

S42、客户端k通过计算损失值 和 的梯度 和 来更新自身的协作强化学习网络在t时刻的价值参数 和策略参数 并发送给全局模型进行聚合,分别表示客户端k在t‑1时刻的价值参数和策略参数, 表示与相关的损失函数。

2.根据权利要求1所述的基于超图的B5G海量物联网资源分配方法,其特征在于:所述网络冲突超图模型表示为GH={VH,EH},其中VH和EH分别是GH的顶点集和超边集,所述网络冲|E|×|V|突超图模型的关联矩阵H表示为H∈R ,|E|、|V|分别表示关联矩阵H的超边集和顶点集,H的元素h(v,e)取值如下:v表示|V|中的任一元素,e表示|E|中的任一元素。

3.根据权利要求2所述的基于超图的B5G海量物联网资源分配方法,其特征在于,所述基础问题模型表示为:s.t.

i∈{1,2,…,NTD}

其中,max表示最大化,λ1,λ2∈(0,1)表示不同的权重系数, 表示第i个终端设备在时刻t时的传输速率,NTD是终端设备的数量, 表示时间t使用的资源块数;s.t.表示使成立,表示第i个终端设备在时刻t时的信号与干扰加噪声比, 表示对第i个终端设备在时刻t的最小速率要求;表示网络冲突超图模型中节点的冲突度,当节点存在冲突,则反之则 当属于相同超边缘的节点被分配相同的颜色或相同的节点被重复地分配不同的颜色,则认为该节点存在冲突。

4.根据权利要求3所述的基于超图的B5G海量物联网资源分配方法,其特征在于, 由下式计算:其中,γ∈(0,1)是贴现因子,ri+1是在时刻i+1采取的动作返回的奖励,时刻t采取的动作返回的奖励由下式计算:其中,λ3,λ4,λ5,λ6∈(0,1)表示不同的权重系数, 表示第i个终端设备的信号与干扰加噪声比, 表示第i个终端设备的最小信号与干扰加噪声比。

5.根据权利要求1所述的基于超图的B5G海量物联网资源分配方法,其特征在于,在步骤S42中,参数 通过下式更新:η是学习速率;

任一客户端在时刻t的模型参数θ损失值的梯度由下式计算:

其中,τ是一个轨迹,它表示从初始状态开始按照策略π采取一系列动作和观察一系列状态的过程,这里是时间0到T;π(at|st;θ)表示给定状态st和参数θ下采取动作at的概率;π(a|st;θ)表示给定状态st和参数θ下采取动作a的概率; 表示是一个值函数,它表示在给定参数w下,从状态st和动作a开始,沿着轨迹τ获得的累积奖励的期望; 表示动作空间。

6.根据权利要求5所述的基于超图的B5G海量物联网资源分配方法,其特征在于,在步骤S42中,参数 通过下式更新:任一客户端在时刻t的模型参数w损失值的梯度由下式计算:

其中,π(a|st+1;θ)表示给定状态st+1和参数θ下采取动作a的概率, 表示是一个值函数,它表示在给定参数w下,从状态st+1和动作a开始,沿着轨迹τ获得的累积奖励的期望。

7.基于超图的B5G海量物联网资源分配系统,应用权利要求1~6任一项所述的基于超图的B5G海量物联网资源分配方法,其特征在于:该系统包括服务器和多个与所述服务器连接的客户端;

每个所述客户端用于建立其B5G海量物联网的网络冲突超图模型并基于所述网络冲突超图模型建立无冲突资源管理分配的基础问题模型,以及设计行动价值函数和状态值函数,将所述基础问题模型转化为马尔科夫决策模型,以及使用协作强化学习网络对所述马尔科夫决策模型进行求解,获得在每一时刻无冲突的资源分配决策;

每个所述客户端还用于从所述服务器获取全局模型最新参数损失值,并根据全局模型最新参数损失值和历史经验的参数损失值更新本地模型参数并将历史经验的参数损失值发送到服务器,所述服务器用于将所有所述客户端的参数损失值进行加权平均,得到全局模型最新参数广播至每个所述客户端用于下一次参数更新。