买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于深度强化学习的AUV多模移动数据收集方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于深度强化学习的AUV多模移动数据收集方法

￥19800

专利号： 2022115536336

申请人：山东科技大学

专利类型：发明专利

专利状态：已下证

更新日期：2025-10-27

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于深度强化学习的AUV多模移动数据收集方法，其特征在于，包括如下步骤：步骤1、在目标区域中部署传感器节点并进行初始化；

步骤2、AUV从传感器节点的初始坐标位置p0出发，获取当前时刻下AUV的相关数据，并将其组成路径规划系统时隙t的状态输入，然后系统做出动作决策，选择具体的动作；

步骤3、路径规划系统选择具体动作后，执行AUV多模转角优化算法，得到AUV下一步的航向调整角度；

步骤4、AUV进行转向调整后，以速度v直线行驶一个时隙t；若进入节点收集区域，则执行数据收集，并更新数据收集时间；若AUV行驶后越界、剩余能量不足，则重新执行步骤2；否则，重复执行步骤3‑4，直到收集完所有节点的数据并返回起始点p0。

2.根据权利要求1所述基于深度强化学习的AUV多模移动数据收集方法，其特征在于，所述步骤1的具体过程为：将M个传感器节点使用锚链静态部署在海床上，并根据其空间距离将所有传感器节点分为N个集群，部署的节点根据其不同的功能分为普通节点S＝{s1，s2，…，sM}、簇头CHs＝{c1，c2，…，cN}和汇聚节点；传感器节点的坐标位置为pi＝(xi,yi)(i＝1,2,…,M)；每个节点均配备水下声学和光学调制解调器m＝{ac,op}，ac表示选择声学调制解调器，op表示使用光学调制解调器，所有传感器节点具有相同的初始能量、传感和通信能力；AUV具有相同的通信能力，传感器节点的数据到达率服从参数为λ的泊松随机分布，当AUV访问ci(i＝1,

2,…,N)时，簇头将其采样数据块打包成具有时间戳Ti的长度为Bi的数据包。

3.根据权利要求1所述基于深度强化学习的AUV多模移动数据收集方法，其特征在于，所述步骤2中，相关数据包括指向角ψ0、剩余能量EAUV、距离每个簇头节点的距离di,t、节点采集状态采集信息后的AoI值δi,t；

路径规划系统有∈的概率选择一个随机动作，1‑∈的概率选择以往经验中期望奖励估计最大的动作，将以往经验中期望奖励估计最大的动作记为其中，st表示当前状态，θ表示神经网络参数；动作集是a＝{ci,t,mi,t,cj,t|st}，选择的动作包括当前目标点ci,t、通信方式mi,t和下一目标点cj,t；其中，cj,t∈Nr\ci,t，表示下一目标点只能从ci,t之外的未访问点的集合中选择，Nr表示未被访问簇头节点的集合。

4.根据权利要求1所述基于深度强化学习的AUV多模移动数据收集方法，其特征在于，所述步骤2中，路径规划系统采用DQN深度强化学习算法进行动作决策，在执行一步动作后，设置奖励函数如下：当AUV到达簇头节点通信范围内时，得到一个和数据传输能耗相关的正奖励；当AUV到达循环结束时，得到一个奖励值J；其他正常行驶时，得到一个和数据重要性以及距离相关的负奖励；

其中，表示是否选择UAC作为通信方式，k1是常系数，ei表示簇头节点ci数据传输能耗，表示＝{0,1}表示是否选择UOC作为通信方式，k2是常系数，bi表示是否收集到簇头节点ci的数据，bi＝1表示收集，ηi表示簇头节点ci的重要性权重，表示AUV到节点ci的欧氏距离；J是训练结束时的奖励，包括正常结束时的正奖励和异常结束时的负奖励；

其中，rout是常数，表示数据收集失败的惩罚，Δt表示AUV剩余能量与从当前位置到达目的地能量消耗的差值，pa表示AUV的位置，Ω表示AUV可移动区域范围，k3是常数，N表示簇头节点数，Ai表示簇头节点ci的AoI值，pa表示AUV的位置，p0表示AUV的起始点位置，Nr表示剩余未被访问簇头节点集合。

5.根据权利要求1所述基于深度强化学习的AUV多模移动数据收集方法，其特征在于，所述步骤3中，采用AUV多模转角优化算法进行航向调整角度的过程为：设AUV在时隙t的点位置为pa,t，需要进行数据采集操作的簇头为CHs，Cac和Cop分别表示UAC和UOC的通信范围；

设ci为AUV当前目标CHs，cj为下一个目标CHs，在时隙t，AUV得到执行动作{ci，m，cj}，确定AUV的转向角度；目标是在通信介质m＝{ac,op}的通信范围Cm内得到点使距离最短；若AUV与下一目标点的连线在当前目标点声通信范围之

外，则AUV收集数据的悬停坐标通过以下方式获得：

其中， xa,t表示AUV在时隙t的

x轴坐标值，dm表示通信介质m的通信半径，dai,t为AUV在时隙t时到目标ci的距离，dij为当前目标CHs ci到下一个目标CHs cj的距离；ya,t表示AUV在时隙t的y轴坐标值；那么，AUV在时隙t处的转向角表示为：其中，ψm,t表示AUV在时隙t与目标悬停点的夹角，ψmax为AUV允许的最大转角范围，ψt表示AUV当前指向角；那么，根据目标位置和通信介质的不同，AUV的转向角在以下两种情况下进行调整：情况1：AUV从当前位置pa,t到下一个目标采集点cj没有通过区域Cm；确定通信介质后，在Cac或Cop处求出点pri,ac或pri,op，使AUV轨迹长度最小；当选择簇头节点ci,cj和调制解调器后，AUV数据采集悬停位置和转向角Ψac,t由式(3)和(4)计算；

情况2：AUV通过CHs ci的区域Cm，从当前位置pa,t到下一个目标收集点cj,如果AUV穿过UAC通信区域Cac而不穿过通信区域Cop；如果通信模式为UAC，AUV数据采集悬停点是从ci到线段的垂足然后，AUV的转向角通过公式(4)获得；如果选择的通信介质是UOC，则与情况1类似地计算数据收集点和转向角；此外，如果AUV越过CHs ci的UOC通信范围，则直接选择UOC作为通信介质。

6.根据权利要求1所述基于深度强化学习的AUV多模移动数据收集方法，其特征在于，所述步骤4中，当一轮数据收集结束，所述加权平均AoI的计算过程如下：

(1)首先，计算节点ci在时隙t的信息年龄为：

其中，Ti表示AUV到达簇头节点ci的时间；

(2)AUV到达CHs ci时的时刻的AoI为然后，在时隙t＝Ti+1，从节点ci收集的AoI等于：

其中，表示AUV从簇头节点ci到ci+1的航行时间；

Rac表示UAC的数据速率；Vac表示UAC的传播速度；Rop表示UOC的数据速率；Vop表示UOC的传播速度；Bi表示数据包长度，d表示AUV和节点之间的通信距离；

(3)在AUV收集完所有数据后，在汇聚节点处的数据加权平均AoI为：

其中，ηi表示簇头ci的数据重要性。