1.一种基于深度强化学习的多AUV协同移动光通信方法,其特征在于:具体包括如下步骤:步骤1:在不同深度区域部署多个AUV,并通过水下光通信建立实时的高速光通信传输链路;
步骤2:目标区域中部署的AUV将接收的初始观测状态输入AUV协同移动控制系统中,AUV协同移动控制系统做出动作决策,选择具体的动作;
步骤3:下层AUV从初始位置出发追踪水下的移动目标;上层AUV则预测下层AUV的位置,同时,AUV协同移动控制系统选择具体的动作后,根据自身的位置信息与接收信号强度传感器检测到的光强数据作为上层AUV下一步速度调整的依据;
步骤4:下层AUV在执行移动动作的同时向上发送光通信数据信号;当上层AUV检测到的来自下层的光信号后,对其进行解码并完成向上转发光信号,从而实现多个AUV之间的光通信数据传输;AUV协同移动控制系统实时判断多个AUV之间是否满足预定义的最小误码率,若不满足,则光通信传输失败,AUV将更新自身位置,并重新执行步骤2;否则,重复执行步骤
3‑步骤4,以保证连续的数据收集,AUV根据惯性导航系统调整自身速度,将海底数据通过光通信传输到海面,直到完成对监测区域的实时数据收集任务;
步骤2中,AUV协同移动控制系统采用基于深度确定性策略梯度的强化学习算法进行动作决策,具体的决策过程为:对于每个AUV,AUV协同移动控制系统根据当前策略μ和噪声 来选择一个动作at,使得对应的Q(st,at)值最大化;即 其中Q代表Critic网络,μμ
代表Actor网络,st表示当前时间步下的状态,at表示在当前状态下应采取的动作,θ 是QActor网络参数,θ是Critic网络参数,argmax则代表选取让Q值最大的动作;在训练阶段,输出的动作at会在最优动作的基础上添加一个服从正态分布的探索噪音 即2
其中, 表示正态分布,σ表示方差;AUV协同移动控制系统
依据当前策略及探索噪声从动作集a中选择一个动作,选择的动作是在t时刻AUV调整速度的所有可能选项之一;设当前策略网络输出的最优动作为ag,动作集表示为a={ut,rt|st},ut表示当前t时刻AUV移动中的航行速度,rt表示当前t时刻AUV移动中的偏航角速度;ut∈[‑umax,umax],rt∈[‑rmax,rmax],ut+1表示下一时刻AUV移动中的航行速度,rt+1表示下一时刻AUV移动中的偏航角速度,umax表示AUV移动中所能控制的最大航行速度;rmax表示AUV移动中所能控制的最大偏航角速度;
步骤3中,AUV协同移动控制系统采用扩展卡尔曼滤波算法对自身位置信息进行预测,具体的预测过程为:AUV协同移动控制系统中上层的AUV采用光学传感器的测量值作为观测值,通过一个状态估计器来预测下层AUV的位置;首先定义了状态转移和观测模型以及用于处理非线性问T题的雅可比矩阵;AUV的状态被定义为X=[xl,yl,ψl] ,是关于下层AUV的位置和方向的信息;在离散时域上的状态传递函数表示为:其中,ω为过程噪声,服从均值为零且协方差为Q的高斯分布; 和 为上层AUV在t时刻的航行速度和偏航角速度;ts为采样时间;因此,该模型的线性化状态转换矩阵能够写成将在不同位置监测的两个独立的光强测量作为观测,t时刻的观测关系Zt表示为:其中,vt是观测噪声,服从均值为零且协方差为R的高斯分布;线性化观测矩阵JH是函数h的雅可比矩阵,能够写成 使用标准的EKF工具来估计近似的相对位置,经过多轮预测和更新得到下层AUV的预测位置;
步骤3中,AUV上安装有惯性导航系统,根据该惯性导航系统控制AUV的速度从而移动,AUV下一时刻移动位置表示为:其中,cos表示三角函数中的余弦,sin表示三角函数中的正弦,xt、yt分别表示X、Y轴上的位置向量,ψt表示方向向量,其中,ut、vt和rt分别表示航行速度、摇摆速度和偏航角速度,t是惯性导航传感器的采样周期;
AUV在选择具体动作后,调整相应的速度,并更新状态信息。
2.根据权利要求1所述的基于深度强化学习的多AUV协同移动光通信方法,其特征在于:步骤1的具体过程为:当AUV接到紧急事件通知时,多个带有摄像机的AUV分别部署到指定的深度,协作执行对移动目标的跟踪任务;每个AUV都配备一个压力传感器确保AUV在特定的深度;假设AUV的数量为I,从上到下的第i个AUV记为AUVi,i∈{1,2,3,…I};除了AUVI,每个AUVi是AUVi+1的追随者;当AUVI到达指定位置后,通过声学通信向上层AUV报告自身位置;上层的多个AUV根据AUVI位置合理分配自身部署位置,通过声学导航到达初始部署位置,并建立实时的高速光通信传输链路。
3.根据权利要求1所述的基于深度强化学习的多AUV协同移动光通信方法,其特征在于:步骤2中,AUV自身装备有发光二极管和接收信号强度传感器,多个AUV建立光学链路后,底层AUV将其监测数据块打包成长度为B的数据包发送给上层AUV,上层AUV通过接收信号强度传感器接收并解码光信号,经过多个AUV之间的光学链路向上将数据传输到水面基站;
初始观测状态包括当前t时刻AUV的初始位置、AUV移动过程中的航行速度、偏航角度、接收AUV与预定义光通信最佳点的距离d、当前t时刻下接收AUV检测到的光强It。
4.根据权利要求1所述的基于深度强化学习的多AUV协同移动光通信方法,其特征在于:步骤2中,AUV协同移动控制系统在执行动作决策后,设置奖励函数如下:其中,rt表示当前t时刻状态下的奖励值;ρ1 、ρ2、ρ3和ρ4均是常系数,分别表示AUV协同移动光通信中的不同重要性权重;I△是t时刻通过光强接收器检测到的瞬时光强It与光强阈值Ith之间的差值;d△表示跟随者AUV与预设光强最佳点A之间的距离;a△是在t时刻的相对偏航方向;u△是在t时刻的相对航行速度。
5.根据权利要求4所述的基于深度强化学习的多AUV协同移动光通信方法,其特征在于:AUV在水下环境中根据当前环境状态自主完成动作决策时,需要不断更新Actor网络参μ Q μ′ Q′数θ、Critic网络参数θ、目标Actor网络参数θ 和目标Critic网络参数θ ;
Q
Critic网络通过最小化实际输出的值与目标值更新θ参数,具体公式如下:μ′ Q′
其中,yt=rt+γQ′(st+1,μ′(st+1|θ )|θ )表示当前t时刻目标值,γ为折扣系数,st+1表示下一时刻状态,Q′表示目标Critic网络,μ′表示目标Actor网络,N表示从经验池中采样的元组数;
μ
Actor网络执行梯度下降更新参数θ,以改进策略网络的性能,具体公式为:μ
其中, 表示对参数求导,J表示优化目标,μ(st|θ)表示Actor网络下在当前t时刻状Q态st下所执行的策略, 表示对动作求导,Q(st,at|θ)表示Critic网络下在当前t时刻状态st采取动作at的函数值;
Q′ μ′
目标Critic网络参数θ 和目标Actor网络参数θ 通过软更新的方式不断逼近实际参数,具体公式如下所示:μ′ Q′
其中,θ 表示目标Actor网络参数,θ 表示目标Critic网络参数,τs表示软更新的系数。
6.根据权利要求1所述的基于深度强化学习的多AUV协同移动光通信方法,其特征在于:步骤4中,移动中的多个AUV持续将海底数据传输到海面舰艇,即移动中多个AUV之间不断调整速度,以控制自身在光圈中心处,以优化通信链路;其优化过程如下:步骤4.1:通过光强接收器检测到的光强,计算检测到的光强与预设光强阈值的误差I△为:IΔ=It‑Ith (5);
其中,It表示瞬时光强,Ith表示光强阈值;
步骤4.2:根据t时刻的位置,计算AUV与预设最佳光强接受点的距离为:其中, 和 分别表示跟随AUV和预设最佳接收点A在t时刻的位置;
步骤4.3:AUV将检测到的光信号,解码并不断检测传输过程中的光强度与距离信息,以不断调整速度优化通信链路。