买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于深度强化学习的水下联合中继选择和功率分配方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于深度强化学习的水下联合中继选择和功率分配方法

面议

专利号： 2020106940393

申请人：燕山大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-07-01

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于深度强化学习的水下联合中继选择和功率分配方法，其特征在于，所述方法包括：创建拓扑结构，包括一个源节点u、N个候选中继节点r1,r2…rN和一个目的节点d；

广播信号给候选中继节点和目的节点，同时源节点根据状态信息进行中继选择和功率分配；

选中的中继节点转发信号给目的节点；

所述目的节点将状态信息反馈给源节点；

采用深度强化学习方法，使所述源节点不断与环境进行交互得到所需状态信息，通过策略优化离线学习的方式，使所述源节点在试错中学习到经验用于决策。

2.根据权利要求1所述的基于深度强化学习的水下联合中继选择和功率分配方法，其特征在于，所述创建拓扑结构的步骤中还包括水下节点的分布设计和水下环境的模拟；

所述水下节点的分布设计为水下节点随机分布在规定范围内；

所述水下环境的模拟包括水下信道增益和水下环境噪声。

3.根据权利要求2所述的基于深度强化学习的水下联合中继选择和功率分配方法，其特征在于，所述水下信道增益的计算公式如下：其中，表示在k时刻第N个候选中继节点的信道衰落，其服从瑞丽分布，A(di,j,f)表示声信号路径损失，a(f)表示吸收因子，di,j表示节点之间的距离，f表示频率，i,j表示两个不同的节点，k表示时间隙；

所述水下环境噪声的计算公式如下：

N(f)＝Nt(f)+Nv(f)+Nw(f)+Nth(f)其中，

10log Nt(f)＝17-30log f

10log Nv(f)＝40+20(v-0.5)+26log f-60log(f+0.03)

10log Nw(f)＝50+7.5w1/2+20log f-40log(f+0.4)

10log Nth(f)＝-15+20log f其中，Nt(f)表示湍流噪声，Nv(f)表示船舶运输噪声，Nw(f)表示水面风速影响，Nth(f)表示热噪声，f表示频率，v表示船舶影响程度，w表示风速。

4.根据权利要求1所述的基于深度强化学习的水下联合中继选择和功率分配方法，其特征在于，所述广播信号给候选中继节点和目的节点，同时源节点根据状态信息进行中继选择和功率分配，包括：得到u-r链路和u-d链路的SINR，其公式如下：其中，αk表示链接向量，采用one-hot编码方式，即如果第i个中继被选为中继节点，则链接向量中该中继对应位置为1，其他位置为0，i∈N，表示中继i被选为中继节点，N0和N1为高斯噪声，Pu表示源节点的发射功率。

5.根据权利要求1所述的基于深度强化学习的水下联合中继选择和功率分配方法，其特征在于，所述选中的中继节点转发信号给目的节点，包括：得到r-d链路的SINR，并最终计算u-r-d链路的SINR和通信容量，其公式如下：其中，αk表示链接向量，采用one-hot编码方式，Pr,i表示所选中继节点的发射功率，N2为高斯噪声。

6.根据权利要求1所述的基于深度强化学习的水下联合中继选择和功率分配方法，其特征在于，所述目的节点将状态信息反馈给源节点，包括：在目的节点整合信干噪比后，把源节点到所选中继节点之间的信道增益Gur，所选中继节点到目的节点的信道增益Grd，以及源节点到目的节点之间的信道增益Gud反馈给源节点，并将其作为所述深度强化学习训练的输入状态信息。

7.根据权利要求1所述的基于深度强化学习的水下联合中继选择和功率分配方法，其特征在于，所述采用深度强化学习方法，使所述源节点不断与环境进行交互得到所需状态信息，通过策略优化离线学习的方式，使所述源节点在试错中学习到经验用于决策，包括：源节点获取环境状态信息

源节点根据获得的状态信息输入神经网络，做出采取的决策行动a，作用于环境；

源节点选择的动作作用于环境后，环境把整个拓扑的信干噪比作为奖赏r反馈给源节点，同时环境从当前时刻状态s转移到下一时刻的状态s’，把(s,a,r,s’)放入内存D中；

使用RNN网络训练网络参数。

8.根据权利要求7所述的基于深度强化学习的水下联合中继选择和功率分配方法，其特征在于，所述使用RNN网络训练网络参数，包括：步骤一，初始化回放内存记为D；

步骤二，使用循环神经网络(RNN)来拟合状态行动值函数Q，并初随机初始化参数θ步骤三，使用RNN网络来拟合目标状态行动值函数Q^，网络结构同Q网络，初始化权重参数θ-＝θ；

步骤四，设定训练轮数用Episode表示，使其等于M；

步骤五，初始化网络输入序列s1；

步骤六，以ε的概率随机选择动作at，或者at＝argmaxaQ(st,a,θ)；

步骤七，源节点执行动作at，观察奖赏rt并得到下一个时刻的状态st+1；

步骤八，把(st,at,rt,st+1)放入D中；

步骤九，随机从D中采样minibatch个样本，表示为(sj,aj,rj,sj+1)；