1.基于图强化学习的物联网资源无冲突分配方法,其特征在于,包括步骤:S1、创建超密集部署的物联网的超图网络模型;所述步骤S1具体包括步骤:S11、对超密集部署的物联网进行建模,得到基础网络模型,所述基础网络模型包括NAP个AP、NWSD个WSD和一个负责所有基带信号处理和网络业务管理的CU池,AP指接入点,WSD指智能无线传感器设备;所有WSD的数据在CU池处可用,并且CU池通过前传链路将每个WSD的数据分发到AP的子集;AP之间交换的信道状态信息被实时地发送到CU池;发射机和接收机之间的信道衰落遵循准静态瑞利衰落模型;
S12、使用初始超图G=(X,D)来建模WSD之间的关系,X表示顶点集,D表示超边集,X和D之间的关系由关联矩阵HI表示,矩阵HI的行表示顶点,列表示超边,元素取如下:其中,(xi,dj)=1表示第i个顶点xi在第j条超边dj的范围内,反之则(xi,dj)=0表示第i个顶点xi不在第j条超边dj的范围内;
S13、删除子超边来简化初始超图获得简化超图模型,若一个超边包含另一个超边,被包含的另一个超边则为子超边,Hs是所述简化超图模型的关联矩阵;
S14、去除所述简化超图模型中的非重叠信息,获得最终的超图网络模型,Ho是所述超图网络模型的关联矩阵;
S2、对所述超图网络模型中的重叠网络资源冲突进行建模,得到超图网络服务管理模型;所述步骤S2具体包括步骤:
S21、将Ho中为1的元素替换为相应的AP与WSD之间的通信网络资源以构建网络冲突矩阵H;
S22、计算网络冲突矩阵H中资源κ的网络资源冲突度:其中, 表示网络冲突矩阵H的第n行, 表示网络冲突矩阵H的第m列,U表示AP的集合,I表示WSD的集合, 表示 中资源κ的网络资源冲突程度, 表示 中资源κ的网络资源冲突程度;
S23、构建超图网络服务管理模型为:
γi表示网络冲突矩阵H中WSD i在时间t的传输速率, 表示资源集合, 为最小容量速率要求;约束C1表示物联网的总网络资源冲突度必须为零,约束C2通过设置最小网络容量 来确保网络冲突矩阵H中每个WSD满足传输速率要求;
S3、将所述超图网络服务管理模型建模为一个联合超图和马尔可夫决策过程的决策模型;所述步骤S3具体包括步骤:
S31、定义在时间t的状态st为:
其中, 是网络资源的数量,NWSD是WSD的个数, 是第n个WSD的传输速率, 是第n个WSD的最低速率要求集, 是第Nres个网络资源的网络资源冲突度;
定义在时间t处执行动作at之后,返回的奖励rt为:定义强化学习长期累积折扣奖励 为:
其中λ∈[0,1]是奖励折扣因子;
S32、将超图网络服务管理模型的目标函数修改为:其中,π表示策略,Eπ[·]表示遵循策略π的期望值;
π
S33、定义状态st=s和at=a的行动价值函数Q(s,a)为:π
定义状态st=s的状态价值函数V(s)为:* π *
最优策略π 是在给定任何状态下都能最大化V(s)的策略,最优策略π的行动价值函数值表示为 相应的最优行动是S4、基于图卷积网络双决斗深度Q网络对所述决策模型进行求解;所述步骤S4具体包括步骤:S41、训练图卷积网络双决斗深度Q网络;所述图卷积网络双决斗深度Q网络包括架构相同、网络参数不同的评价决斗Q网络和目标决斗Q网络,所述评价决斗Q网络或所述目标决斗Q网络设有两层图卷积网络GCN,GCN通过聚合邻域中的其他节点的特征来学习超图节点在下一状态中的嵌入,GCN被定义为:其中, 是超图G的邻接矩阵, 是单位矩阵,NNode表示节点个数;是顶点度矩阵;W是GCN权重;WH是超边权重矩阵;De是超边度矩阵,σ()是激活k k+1函数,X表示第k层的特征矩阵,X 表示第k+1层的特征矩阵,A1表示没有归一化的矩阵;
所述评价决斗Q网络定义为:
π
θ,α,β是评价决斗Q网络的参数, 表示执行动作的个数,Q (s,a;θ,α,β)表示评价决π π斗Q网络的输出,V (s;θ,β)表示评价决斗Q网络中的价值网络的输出,A(s,a;θ,α)表示(s,πa;θ,α)下的动作网络的输出,A(s,a′;θ,α)表示在(s,a′;θ,α)下的动作,a′表示下一动作;
S42、采用训练完成的图卷积网络双决斗深度Q网络对所述决策模型进行求解,得到当前物联网状态对应的策略。
2.根据权利要求1所述的基于图强化学习的物联网资源无冲突分配方法,其特征在于,γi由下式计算:其中B是信道带宽, 是WSD i处的信号与干扰加噪声比;
由下式计算:
其中,P表示发射功率,gj,i表示发射机j和接收机i之间的信道系数,gk,i表示发射机k和接收机i之间的信道系数, 表示加性高斯白噪声的方差。
3.根据权利要求1所述的基于图强化学习的物联网资源无冲突分配方法,其特征在于,所述图卷积网络双决斗深度Q网络的损失函数为:其中rt是奖励,η是学习速率, 表示目标决斗Q网络在参数π
下的最大值, 为目标决斗Q网络的参数,Q(st,at;θ,α,β)表示评价决斗Q网络在参数(st,at;θ,α,β)下的值,θ,α,β为评价决斗Q网络的参数。
4.根据权利要求3所述的基于图强化学习的物联网资源无冲突分配方法,其特征在于:在所述步骤S41中,训练所述图卷积网络双决斗深度Q网络具体包括步骤:初始化GCN参数θ、 随机获得初始动作a0和初始状态s0;
使用一个贪婪的策略来选择是探索还是利用;
根据执行的当前动作at反馈下一个环境状态st+1,并将经验信息{st,at,rt,st+1}存储到重放存储器D中;
从经验重放缓冲器D,对元组的随机小批量进行采样;
使用采样样本训练评估决斗Q网络的参数θ,并将评估决斗Q网络参数θ每L次分配给目标决斗Q网络的参数
5.基于图强化学习的物联网资源无冲突分配系统,其应用权利要求1~4任一项所述的基于图强化学习的物联网资源无冲突分配方法,其特征在于:包括超图网络模型创建单元、超图网络服务管理模型创建单元、决策模型创建单元和决策求解单元;
所述超图网络模型创建单元用于创建超密集部署的物联网的超图网络模型;
所述超图网络服务管理模型创建单元用于对所述超图网络模型中的重叠网络资源冲突进行建模,得到超图网络服务管理模型;
所述决策模型创建单元用于将所述超图网络服务管理模型建模为一个联合超图和马尔可夫决策过程的决策模型;
所述决策求解单元用于基于图卷积网络双决斗深度Q网络对所述决策模型进行求解。