1.一种基于双深Q网络和冲突度算法的网络无冲突资源分配方法,其特征在于,包括以下步骤:步骤1:获取待进行资源分配的网络环境的用户干扰关系并构建单环多图模型,在无资源冲突的约束下,以整个网络资源重用率ρ最大化为目标,构建优化问题;
步骤2:针对所述单环多图模型,将所述优化问题建模为马尔可夫决策过程,所述马尔可夫决策过程包括状态空间、动作空间、状态转移矩阵、即时奖励函数、策略和动作价值函数六个要素;
步骤3:构建资源分配模型,所述资源分配模型包括环境模块和DDQN网络模块,其中,环境模块用于模拟网络环境中的用户干扰关系;DDQN网络模块包括主网络和目标网络、重放存储器D、ε‑贪婪算法单元和损失函数计算单元;
步骤4:根据DDQN算法和冲突度算法,选择最大动作值函数对应的动作,得到最优无冲突资源分配策略,步骤4具体包括:S41:初始化DDQN网络及其参数,包括初始化主网络权值w和目标网络权值θ,并选择初始动作a0及其初始状态s0;
S42:在动作空间A中选择一个随机动作进行基于概率阈值εt的探索,或者以1‑εt的概率选择一个使得动作价值函数最大的动作;
S43:根据t时刻选择的动作at和状态st计算即时奖励rt,并得到下一时刻t+1时的扩展的关联矩阵Ma(t+1),其中,即时奖励rt是基于冲突程度得到的,即:其中,r(st,at)表示在st状态下选择动作at的环境奖励,DConflict(t)表示t时刻的冲突程度,即 DConfilt(vi,k)表示用户vi使用资源k的冲突度,ρ为资源重用率;
t+1时刻的扩展的关联矩阵Ma(t+1)表示为: 其中,M(t+1)表示t+1时刻的单环多图模型对应的关联矩阵,Ek(t+1)表示t+1时刻用户的资源分配情况矩阵;
S44:利用t+1时刻的扩展的关联矩阵Ma(t+1)来获得t+1时刻的状态,即st+1=Ma(t+1),并将当前体验et=
S45:从重放存储器D中随机选择一个体验,用于训练主网络的权重参数w,并按照设置的更新步长,更新目标网络中的参数θ=w;
S46:更新贪婪因子ε,即
其中,εt表示t时刻的贪婪因子,即t时刻的概率阈值;εt+1表示t+1时刻的贪婪因子;
εdecay表示设置的衰减因子;εmin表示设置的最小贪婪因子;
S46:对于每次迭代,重复执行步骤S42‑S46,直至迭代完成;
S47:输出最终的网络权值w和目标网络权值θ,以及最优策略π*(s,a)。
2.根据权利要求1所述的基于双深Q网络和冲突度算法的网络无冲突资源分配方法,其特征在于,所述步骤1中,构建单环多图模型包括以下步骤:S11:根据超图理论,将网络环境中干扰区域进行建模,构建为超图模型,表示为H={V,E},其中,V={v1,v2,...,vn}表示顶点集,代表用户集,E={e1,e2,...,em}是超边集,代表用户的IC集,顶点与超边的关系用关联矩阵Ih表示,Ih中的列对应顶点,Ih中的行对应超边,其中,Ih={a(i,j)},i=1,2,...,n,j=1,2,...,mS12:根据对偶理论,将超图模型转化为对偶超图模型,在对偶超图中,E={e1,e2,...,em}表示顶点集,即IC集,V={v1,v2,...,vn}表示边集,即用户集,顶点的环表示非重叠用户,边表示重叠用户,对偶超图与一个关联矩阵Idh关联,S13:通过矩阵变换,将对偶超图模型转化为多图模型,多图模型与邻接矩阵Amulit关联,在多图模型中,每个边只与两个顶点相关,两个顶点之间存在多个边,如果存在超边与多个顶点关联,将该超边拆分成多个与两个顶点关联的边;
S14:将多图模型转化为单环多图模型,包括:
将重叠用户从Amulit中分离出来,Amulit表示为:Amulit=Amu+Asu,
其中,Amu中的元素表示IC之间重叠用户的数量,通过在Amulit中将对角线元素设置为1,其他值保持不变来实现;Asu中的元素表示每个IC中非重叠用户的数量,通过Asu=Amulit‑Amu得到;
根据Amu得到单环多图模型,所述单环多图模型对应一个关联矩阵M,关联矩阵M的列对应单环多图中的用户,行对应超边。
3.根据权利要求2所述的基于双深Q网络和冲突度算法的网络无冲突资源分配方法,其特征在于,S13包括:(1)计算对偶超图的每个顶点上的环数,包括:
对Idh的每一列进行求和,并将结果中除1以外的元素设置为0以获得序列R*,R*中的元素数等于对偶超图中的边数;
用一维列向量R*来记录边是否为环,R*(i)=1表示边vi是环,R*(i)表示R*中的第i个元素;
Idh的每一行对R*进行逻辑与运算,并对所得元素求和,得到多图中每个顶点的环数,用公式表示为diag(Amulit)=Idh·R*,“·”表示逻辑与运算;
(2)计算对偶超图的不同顶点之间的边,包括:
将Idh中任意两行中的元素进行逻辑与运算,并进行求和,得到这两行对应的多图中的两个顶点之间的边数;
(3)将多图中每个顶点的环数作为Amulit对角线上的元素,将不同顶点之间的边数作为Amulit非对角线上的元素。
4.根据权利要求2所述的基于双深Q网络和冲突度算法的网络无冲突资源分配方法,其特征在于,步骤1中资源重用率ρ定义为:其中,φ表示用户总数,kc表示资源总数。
5.根据权利要求2所述的基于双深Q网络和冲突度算法的网络无冲突资源分配方法,其特征在于,步骤1中的无冲突资源约束用公式表示为:其中,
K表示资源集合;
DConfilt(vi,k)表示用户vi使用资源k的冲突度;
MConfilt为冲突关联矩阵,即关联矩阵M,表示用户vi与其他用户发生冲突的集合;
e(vi)是单环多图模型中的边集,用户vi和e(vi)中的边都与单环多图模型中的同一个顶点相关联;
6.根据权利要求5所述的基于双深Q网络和冲突度算法的网络无冲突资源分配方法,其特征在于,步骤2包括以下步骤:S21:确定动作空间A,其中,对于任意的时间t,at∈Α,在包含分配的目标用户vi和分配的资源k处的动作at定义为:at={vi,k},k∈K,
S22:确定状态空间S,其中的状态st对应于时刻t对单环多图模型中的用户的通信资源分配情况,初始状态s0表示没有任何资源分配的状态,使用扩展的关联矩阵定义马尔可夫状态,在时间ti,扩展的关联矩阵Ma(ti)表示为:其中,
M(ti)表示时间ti时与单环多图模型对应的关联矩阵M;
Ek(ti)表示时间ti时为单环多图模型中的各用户分配的通信资源情况,元素为0表示未分配资源;
S23:确定即时奖励函数rt,所述即时奖励函数是基于冲突程度的即时奖励函数:其中,DConflict(t)表示t时刻的冲突程度,即 r(st,at)表示在st状态下选择动作at的环境奖励;
S24:确定状态转移矩阵P,其中,状态转移矩阵P由各个状态之间的转移概率组成,定义转移概率为p(st+1|st,at,st‑1,at‑1,...)=p(st+1|st,at)=p(st,at,st+1),表示对于任意的时间t,对状态st施加动作at转移到下一个状态st+1的概率,则对于策略π,其中, 表示通过策略π,使状态st转移到下一个状态st+1的概率,π(a|s)的概率为p(at=a|st=s),表示在t时刻对状态s施加动作a这一策略的概率,a~π(·|s),“~”表示概率分布采样;
π π
S25:确定策略π下的动作价值函数q (s,a),其中,q (s,a)表示在策略π下,对状态s施加动作a后能获得的折现回报的期望,用公式表示为:其中,E[·]表示期望算子,γ表示折扣因子。
7.根据权利要求6所述的基于双深Q网络和冲突度算法的网络无冲突资源分配方法,其特征在于,对于主网络中的权重参数,智能体采用梯度体面方法进行更新,用公式表示为:其中,
2
Lt(ω)=[q(st,at;w)‑yt],
α表示梯度更新步长;
Lt(ω)表示t时刻的损失函数;yt表示t时刻目标网络的输出;
q()表示动作价值函数。
8.根据权利要求7所述的基于双深Q网络和冲突度算法的网络无冲突资源分配方法,其π特征在于,确定最优策略π*(s,a),其中,π*(s,a)=argmaxπ∈Πq (s,a),即确定最优动作价值函数 等价于找到最优策略,Π表示所有的策略集合,为确定最优动作价值函数采用深度网络方法逼近动作价值函数,即找到最大的q(s,a;w)所对应的策略即为最优策略。
9.根据权利要求1所述的基于双深Q网络和冲突度算法的网络无冲突资源分配方法,其特征在于,用户干扰关系的确定包括以下步骤:计算任意两个用户vi和vj之间可能产生干扰的最大距离R(i,j);
获取用户vi和vj之间的实际距离l(i,j);
根据R(i,j)和l(i,j)的关系,确定用户vi和vj之间的干扰情况Inter(i,j),其中Inter(i,j)=1表示vi干扰vj,Inter(i,j)=0表示没有干扰。