1.D2D辅助超密物联网的资源分配方法,其特征在于,包括步骤:S1、构建D2D辅助超密物联网的网络模型;
所述网络模型由D2D辅助的UD‑IoE层和BBU池组成,D2D指设备到设备,UD‑IoE指超密物联网;在D2D辅助的UD‑IoE层中,存在多个遥控无线电头RRH以及N个通过半双工信道通信、T R具有单一天线的移动物联网设备IoED,N个IoED包括N个发射器和N个接收器;IoED采用D2D通信模式形成自组织网络,IoED通过D2D链路感知周围环境信息;每个IoED具有传输范围Rn,Rn表示第n个IoED在通信半径R的圆内通信的服务区域;RRH通过高速前端链路连接到BBU池,并负责提供基本覆盖和辅助接入;BBU池通过RRH从IoED收集所有环境信息,随后通过RRH向发射器分配资源;BBU池中的总频谱资源被分成K个正交资源块RB;通信网络中的总时间划分为T个时隙;
S2、基于所述网络模型构建D2D辅助超密物联网的通信模型;
S3、基于所述网络模型和通信模型构建D2D辅助超密物联网的冲突模型;
S4、基于团理论和超图理论将所述冲突模型转化为冲突超图模型;
S5、基于冲突超图简化模型和所述通信模型,以最大化所述D2D辅助超密物联网的网络吞吐量为目标,构建频谱资源分配问题;
S6、基于联邦多代理深度强化学习对所述频谱资源分配问题进行求解,获得频谱资源分配策略。
2.根据权利要求1所述的D2D辅助超密物联网的资源分配方法,其特征在于,在所述步骤S2中,所述通信模型包括:时隙t时的资源分配矩阵 其第n行第k列
的元素 取值如下:
在时隙t分配有第k个RB的第n个IoED的单干扰噪声率其中, 和 分别是第n和第 个IoED的发射功率, 和 分别是对应于第k个RB2
上的第n和第 个IoED的信道的功率增益,σ表示噪声功率;
在时隙t分配给第k个RB的第n个IoED的数据速率其中,B是带宽;
数据速率 不小于对应的最小传输速率
其中,表示任意。
3.根据权利要求2所述的D2D辅助超密物联网的资源分配方法,其特征在于,在所述步骤S3中,所述冲突模型构建为 其中 是IoED集,该IoED集被分为H T
头部顶点子集V 和尾部顶点子集V ,头部顶点表示发射器,尾部顶点表示接收器;ε={e1,e2,…,eM}是IoED之间的通信关系集;
N×N
顶点与顶点之间的关系用邻接矩阵GA={0,±1} 来表示,其第n行第 列的元素含义如下:其中,vn是头部顶点,表示邻接矩阵GA中的第n行, 是尾部顶点,表示第 列;
IoED之间只在发射器之间产生冲突,为与次邻居冲突:如果第n个和第 个发射器是彼此的2阶相邻顶点,并且它们同时使用相同的RB,则第n个和第 个发射器与其他发射器冲突,存在冲突的发射器之间构成一条边。
4.根据权利要求3所述的D2D辅助超密物联网的资源分配方法,其特征在于:在所述步骤S4中,所述冲突超图模型构建为 其中 是顶点集, 是超边集;
时隙t时的冲突超图模型由关联矩阵 表示,其中的元素表示为:其中,h(v,e)=1表示顶点v与超边e相关联, 表示顶点的数量, 表示超边的数量;
根据相邻矩阵遗传算法中尾部顶点的对应特征,对每一列尾部顶点构造一条包含与尾部顶点相邻的头部顶点的超边,并使用团、最大团和超图理论来简化冲突超图模型;
t M×K
简化的冲突超图模型的关联矩阵表示为 定义颜色‑超边关系矩阵ψ=(i) 表示为:D2D辅助超密物联网的整体冲突程度定义为:t t
Φ =log(max(ψ ,1)),
t t t
其中,max(ψ ,1)表示取矩阵ψ中元素与1中的最大值,如果矩阵Φ 中的元素值为0,则冲突超图中不存在冲突。
5.根据权利要求4所述的D2D辅助超密物联网的资源分配方法,其特征在于,在所述步骤S5中,所述频谱资源分配问题构建为:max
其中,max表示最大化,s.t.表示需满足,|| ||1表示1范数,C1至C5表示不同的约束,P表示发射器的最大发射功率。
6.根据权利要求5所述的D2D辅助超密物联网的资源分配方法,其特征在于,所述步骤S6具体包括:在D2D辅助UD‑IoE的交互环境中构建一个多代理深度强化学习框架,并将深度强化学习和联邦学习方法相结合,对所述频谱资源分配问题进行求解;
多代理深度强化学习框架被建模为马尔可夫决策过程,每个IoED被视为一个代理,每个代理的目标是通过积累与环境交互的经验来最大化其回报;
马尔可夫决策过程的状态空间 定义为:整个网络中所有代理在t时隙的状态集st={s1(t),s2(t),…,sN(t)},其中代理n在时隙t的状态sn(t)作为对代理n的反馈,状态sn(t)描述如下:t
其中, 和 分别表示作为发射端和作为接收端的代理n的唯一标识符,[(H )T t t T t
H]n,:表示代理n的相互干扰信息,下标n,:代表[(H)H]的第n行,上标T表示矩阵转置,at‑1表示时隙t‑1所有代理执行的动作;
马尔可夫决策过程的动作空间 定义为:代理n执行的动作包括发射功率 和RB选择发射功率离散为NP级 动作空间 的维度为K×NP,在时隙t的联合动作表示为 an(t)表示在时隙t代理n的资源分配动作;
马尔可夫决策过程的奖励函数定义为:当执行at时,代理获得合作的即时奖励,该奖励n由频谱资源分配问题的目标函数确定;对于代理n,在时隙t执行动作的即时奖励rt表示为:其中,Ψt=((HtΦt)⊙Kt)I为设备干扰向量,[Ψt]u表示干扰向量Ψt的第u个元素,Φt表示时隙t的相移矩阵,Ht表示时隙t的信道增益矩阵, 表示资源分配矩阵,I=K{1}是所有元素都为1的K维列向量;ζ>0表示确定惩罚大小的惩罚参数, 表示时隙t时代理n的速率, 表示代理n的最小速率。
7.根据权利要求6所述的D2D辅助超密物联网的资源分配方法,其特征在于,在马尔可夫决策过程中,状态s的状态价值函数表示为:v
其中, 表示求期望,v表示时间步的索引,γ 是折扣因子γ的指数形式,rt+v为在时间步t+v的即时奖励,st=s表示时隙t时的状态st为s;
当前状态st选择s、当前动作at选择a时的动作值函数表示为:*
选择最优动作的最优策略π(a|s)通过下列公式来获得:
8.根据权利要求7所述的D2D辅助超密物联网的资源分配方法,其特征在于,对于代理n,其使用双深度Q网络作为其网络模型,双深度Q网络包括参数为θn的主Q网络和参数为的目标Q网络;
动作值函数Qπ(s,a)使用参数为θn的主Q网络近似为:Qπ(s,a;θn)≈Qπ(s,a);
Qπ(s,a;θn)表示为:
其中,Qπ(s,a;θn)表示代理n的主Q网络估计的在策略π下在状态s采取动作a的Q值,Vπ(s;θn,β)表示代理n的主Q网络估计的在状态s的状态价值函数值,Aπ(s,a;θn,α)表示代理n在策略π下在状态s采取动作a的优势函数值,Aπ(s,a';θn,α)表示代理n在策略π下在状态s采取不同动作a′的优势函数值,|A|表示不同动作的总数量,α、β表示超参数;
n
代理n在时隙t执行最优动作a相应的目标值 表示为:n n
其中,rt表示代理n在时隙t执行最优动作a所获得的即时奖励, 表示代理n在时隙t+
1的状态, 表示代理n的主Q网络估计的Q值最大的动作作为最优动作n n
a , 表示在下一状态 下采取最优动作a 后主Q网络估计的Q值;
表示代理n的目标Q网络根据状态 下的最优动作所估计的Q值。
9.根据权利要求8所述的D2D辅助超密物联网的资源分配方法,其特征在于:在联邦学习中,每个代理根据其重放缓冲器中的小批量采样来训练本地网络模型,联邦学习云服务器通过聚合所有代理的本地网络模型得到全局网络模型,并向所有代理反馈,这些代理将下载相同的全局网络模型来更新本地网络模型;
对于代理n,从重放缓冲器 中采样样本集合 进行训练,损失函数 为:其中, 表示代理n的主Q网络所估计的代理n在时隙t在状态 下执行动作的Q值, 表示从代理n的样本集合 抽取的第i个经验样本;
采用自适应矩估计方法来更新主Q网络的参数θn;
当更新主Q网络的参数θn时,固定目标Q网络的参数 仅在主Q网络的参数θn被更新FTarget次之后才被更新。
10.D2D辅助超密物联网的资源分配系统,其特征在于:设有智能体,所述智能体用于执行权利要求1~9任一项所述的资源分配方法。