1.一种基于注意力机制和深度强化学习的无线路由优化方法,其特征在于,包括以下步骤:每个节点入网时从服务器上获取当前最新的决策模型参数,并侦听邻居节点信息;
节点根据侦听邻居节点信息构建候选父节点集,并将其中m个能量最大的候选父节点的信息建模为图向量作为本地决策模型的输入;
基于本地决策模型,节点选取最优的父节点作为其数据传输的中继节点,并在每个数据周期结束后,节点统计其数据传输节点相关性能指标;
采用同度量化函数性能指标映射为节点在对应状态和动作下对应的奖励值,节点将在该数据周期内采集的数据传输给服务器;
服务器根据节点采集的信息训练服务器上的决策模型,服务器上的全局模型包括基于CNN的注意力机制模块和DDPG网络,基于CNN的注意力机制模块用于从候选父节点集构造的图向量中提取特征,并将提取特征输入DDPG网络执行路由决策和模型优化过程;
构造的图向量的过程包括:
从候选父节点处选取剩余能量最大的m个候选父节点,并将候选父节点信息构建成m×r的图向量作为状态向量s,r是指所选信息维度;
当节点的候选父节点数大于等于m时,节点选取其中剩余能量最大的m个节点并将相应的路由度量信息抽象为m×5的图向量,选择的路由度量信息包括剩余能量信息、跳数、邻节点、缓冲器队列数、期望传输次数;当节点的候选父节点数小于m时,不足的路由度量信息用
0填充;
基于CNN的注意力机制模块从候选父节点集构造的图向量中提取特征的过程包括:采用32个一维卷积(1x1)的卷积核,对所述状态向量s进行卷积操作,表示为:
1x1
F=Conv
1×m×r
在32个通道域上采用全局平均池化和全局最大池化得到两个新的特征,即Favg∈R
1×m×r 2×m×r
和Fmax∈R ,将两个新的特征进行融合为Fam=[Fave;Fmax];对Fam∈R 在通道上进行全局平均池化用于提取更多的细节特征,表示为:
1×m×r
Fc∈R
采用两个具有不同卷积核尺寸的卷积层对Fc在两个不同的维度上实卷积操作,即:
1×m
Nw=Conv (Fam)
r×1
Mw=Conv (Fam)
其中每个卷积层的卷积核数量均为1;
采用矩阵乘法计算NMw,表示为:
NMw=Nw×Mw
1×m×r
其中,NMw∈R ;
使用残差块来保证信息的完整性,并执行一维卷积操作,结果表示为:m×1
Fj=Conv (NMw+Fc)
将Fj作为DDPG网络的输入,在DDPG网络中,第j个节点在对应状态和动作下对应的奖励值rj表示为:rj=w1*f(Th)+w2*f(Ce)+W3*f(De);
其中,f(Th)表示节点的吞吐量指标;f(Ce)表示节点的消耗的能量指标;f(De)表示节点的时延指标;w1,w2和w3分别是f(Th),f(Ce)和f(De)的权重,且w1+w2+w3=1;
节点的吞吐量指标f(x)的计算包括:
(x‑E[x])/(max[x]‑E[x])*βf(x)=αe ,x=Th
其中,α和β为第一系数;E[x]表示求x的期望;max[x]表示求x的最大值;Th表示节点的吞吐量;
节点的消耗的能量指标和节点的时延指标f(y)的计算包括:(E[y]‑y)/(E[y]‑min[y])*β1f(y)=α1e ,y∈[Ce,De]
其中,α1和β1为第二系数,且规定当指标值达到平均水平,α1=40;当指标值达到最大值时,β1=ln2.5;E[y]表示求y的期望;min[y]表示求y的最x小值;Ce表示节点的消耗的能量;
De表示节点的时延。
2.根据权利要求1所述的一种基于注意力机制和深度强化学习的无线路由优化方法,节点将一个数据周期采集的数据传输给服务器后,服务器将数据存放到服务器的经验回放池,服务器从经验池中采样k个样本对服务器上的决策模型进行训练,训练过程包括:
101、从经验池中采样k个样本,ej=
102、将基于CNN的注意力机制模块提取的特征Fj和F′j输入DDPG网络,DDPG网络的Main Net的Actor网络计算Target Q值,表示为:
103、根据Target Q值计算Main Net的Critic网络损失,该损失表示为:基于Critic网络损失的梯度反向传播更新Main Net的Critic网络参数ω;
104、计算Main Net的Actor网络损失,该网络损失表示为:基于得到的Actor网络损失的梯度反向传播更新基于CNN的注意力机制模块和Main Net的Actor网络参数θ;
105、步骤101~104每更新C次网络参数后,更新Target Net中基于CNN的注意力机制模块、Actor网络和Critic网络的参数表示为:θ′←αθ+(1‑α)θ′;
ω′←αω+(1‑α)ω′;
106、网络中的节点定期从服务器的Target Net中获取最新的策略网络参数即θ′;
其中,Yi为对应状态‑动作对(sj,aj)的目标Q值;ω是Main Net的Critic网络参数;ω′是Target Net的Critic网络参数;θ′是基于CNN的注意力机制模块和Target Net的Actor网络参数;Q(F′j,πθ′(F′j);ω′)是由Target Net的Actor网络根据对应的状态‑动作对(F′j,πθ′(F′j))计算的Q值;Q(Fj,aj;ω)是由Main Net的Actor网络根据对应的状态‑动作对(Fj,aj)计算的Q真实值;γ是奖励折扣因子;J(θ)是Main Net的Critic网络的损失函数;rj为第j个节点在对应状态和动作下对应的奖励值; A为动作空间,即所有动作的集合;α∈[0,1]是学习率。