利索能及
我要发布
收藏
专利号: 2022115536336
申请人: 山东科技大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-10-27
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于深度强化学习的AUV多模移动数据收集方法,其特征在于,包括如下步骤:步骤1、在目标区域中部署传感器节点并进行初始化;

步骤2、AUV从传感器节点的初始坐标位置p0出发,获取当前时刻下AUV的相关数据,并将其组成路径规划系统时隙t的状态输入,然后系统做出动作决策,选择具体的动作;

步骤3、路径规划系统选择具体动作后,执行AUV多模转角优化算法,得到AUV下一步的航向调整角度;

步骤4、AUV进行转向调整后,以速度v直线行驶一个时隙t;若进入节点收集区域,则执行数据收集,并更新数据收集时间;若AUV行驶后越界、剩余能量不足,则重新执行步骤2;否则,重复执行步骤3‑4,直到收集完所有节点的数据并返回起始点p0。

2.根据权利要求1所述基于深度强化学习的AUV多模移动数据收集方法,其特征在于,所述步骤1的具体过程为:将M个传感器节点使用锚链静态部署在海床上,并根据其空间距离将所有传感器节点分为N个集群,部署的节点根据其不同的功能分为普通节点S={s1,s2,…,sM}、簇头CHs={c1,c2,…,cN}和汇聚节点;传感器节点的坐标位置为pi=(xi,yi)(i=1,2,…,M);每个节点均配备水下声学和光学调制解调器m={ac,op},ac表示选择声学调制解调器,op表示使用光学调制解调器,所有传感器节点具有相同的初始能量、传感和通信能力;AUV具有相同的通信能力,传感器节点的数据到达率服从参数为λ的泊松随机分布,当AUV访问ci(i=1,

2,…,N)时,簇头将其采样数据块打包成具有时间戳Ti的长度为Bi的数据包。

3.根据权利要求1所述基于深度强化学习的AUV多模移动数据收集方法,其特征在于,所述步骤2中,相关数据包括指向角ψ0、剩余能量EAUV、距离每个簇头节点的距离di,t、节点采集状态 采集信息后的AoI值δi,t;

路径规划系统有∈的概率选择一个随机动作,1‑∈的概率选择以往经验中期望奖励估计最大的动作,将以往经验中期望奖励估计最大的动作记为 其中,st表示当前状态,θ表示神经网络参数;动作集是a={ci,t,mi,t,cj,t|st},选择的动作包括当前目标点ci,t、通信方式mi,t和下一目标点cj,t;其中,cj,t∈Nr\ci,t,表示下一目标点只能从ci,t之外的未访问点的集合中选择,Nr表示未被访问簇头节点的集合。

4.根据权利要求1所述基于深度强化学习的AUV多模移动数据收集方法,其特征在于,所述步骤2中,路径规划系统采用DQN深度强化学习算法进行动作决策,在执行一步动作后,设置奖励函数如下:当AUV到达簇头节点通信范围内时,得到一个和数据传输能耗相关的正奖励;当AUV到达循环结束时,得到一个奖励值J;其他正常行驶时,得到一个和数据重要性以及距离相关的负奖励;

其中, 表示是否选择UAC作为通信方式,k1是常系数,ei表示簇头节点ci数据传输能耗, 表示={0,1}表示是否选择UOC作为通信方式,k2是常系数,bi表示是否收集到簇头节点ci的数据,bi=1表示收集,ηi表示簇头节点ci的重要性权重, 表示AUV到节点ci的欧氏距离;J是训练结束时的奖励,包括正常结束时的正奖励和异常结束时的负奖励;

其中,rout是常数,表示数据收集失败的惩罚,Δt表示AUV剩余能量与从当前位置到达目的地能量消耗的差值,pa表示AUV的位置,Ω表示AUV可移动区域范围,k3是常数,N表示簇头节点数,Ai表示簇头节点ci的AoI值,pa表示AUV的位置,p0表示AUV的起始点位置,Nr表示剩余未被访问簇头节点集合。

5.根据权利要求1所述基于深度强化学习的AUV多模移动数据收集方法,其特征在于,所述步骤3中,采用AUV多模转角优化算法进行航向调整角度的过程为:设AUV在时隙t的点位置为pa,t,需要进行数据采集操作的簇头为CHs,Cac和Cop分别表示UAC和UOC的通信范围;

设ci为AUV当前目标CHs,cj为下一个目标CHs,在时隙t,AUV得到执行动作{ci,m,cj},确定AUV的转向角度;目标是在通信介质m={ac,op}的通信范围Cm内得到点 使距离最短;若AUV与下一目标点的连线在当前目标点声通信范围之

外,则AUV收集数据的悬停坐标 通过以下方式获得:

其中, xa,t表示AUV在时隙t的

x轴坐标值,dm表示通信介质m的通信半径,dai,t为AUV在时隙t时到目标ci的距离,dij为当前目标CHs ci到下一个目标CHs cj的距离;ya,t表示AUV在时隙t的y轴坐标值;那么,AUV在时隙t处的转向角表示为:其中,ψm,t表示AUV在时隙t与目标悬停点 的夹角,ψmax为AUV允许的最大转角范围,ψt表示AUV当前指向角;那么,根据目标位置和通信介质的不同,AUV的转向角在以下两种情况下进行调整:情况1:AUV从当前位置pa,t到下一个目标采集点cj没有通过区域Cm;确定通信介质后,在Cac或Cop处求出点pri,ac或pri,op,使AUV轨迹长度最小;当选择簇头节点ci,cj和调制解调器后,AUV数据采集悬停位置 和转向角Ψac,t由式(3)和(4)计算;

情况2:AUV通过CHs ci的区域Cm,从当前位置pa,t到下一个目标收集点cj,如果AUV穿过UAC通信区域Cac而不穿过通信区域Cop;如果通信模式为UAC,AUV数据采集悬停点是从ci到线段 的垂足 然后,AUV的转向角通过公式(4)获得;如果选择的通信介质是UOC,则与情况1类似地计算数据收集点和转向角;此外,如果AUV越过CHs ci的UOC通信范围,则直接选择UOC作为通信介质。

6.根据权利要求1所述基于深度强化学习的AUV多模移动数据收集方法,其特征在于,所述步骤4中,当一轮数据收集结束,所述加权平均AoI的计算过程如下:

(1)首先,计算节点ci在时隙t的信息年龄为:

其中,Ti表示AUV到达簇头节点ci的时间;

(2)AUV到达CHs ci时的时刻 的AoI为 然后,在时隙t=Ti+1,从节点ci收集的AoI等于:

其中, 表示AUV从簇头节点ci到ci+1的航行时间;

Rac表示UAC的数据速率;Vac表示UAC的传播速度;Rop表示UOC的数据速率;Vop表示UOC的传播速度;Bi表示数据包长度,d表示AUV和节点之间的通信距离;

(3)在AUV收集完所有数据后,在汇聚节点处的数据加权平均AoI为:

其中,ηi表示簇头ci的数据重要性。