1.一种无人机飞行航线更新规划的方法,其特征在于,包括以下步骤:
S1:获取无人机在目标区域内的飞行航线,控制无人机沿着所述飞行航线进行飞行,其中,所述飞行航线包括终止点;
S2:获取无人机的飞行过程中的实时信噪比数据;根据所述实时信噪比数据,对所述无人机进行干扰检测,获取干扰检测结果;根据所述干扰检测结果,获取所述无人机当前时刻的位置数据作为当前干扰状态的位置数据,根据所述无人机干扰状态的位置数据以及实时信噪比数据,获取所述无人机干扰状态的信号中断概率数据;
S3:将所述无人机干扰状态的位置数据输入至预设的多步深度学习网络模型的动作模块中,获取所述无人机干扰状态的移动方向数据;根据所述移动方向数据,对所述飞行航线进行更新,控制无人机沿着更新后的飞行航线移动;
S4:将所述无人机干扰状态的位置数据以及信号中断概率数据输入至所述多步深度学习网络模型的评估模块中,获得所述无人机干扰状态的移动收益数据,并与无人机干扰状态的位置数据进行组合,作为所述无人机的移动收益关联组;
S5:获取无人机在飞行过程中经过预设数量的干扰状态位置对应的若干个所述无人机的移动收益关联组,根据所述无人机的移动收益关联组,对所述多步深度学习网络模型的动作模块以及评估模块进行更新,获取更新后的多步深度学习网络模型;
S6:在无人机检测到下一干扰状态的位置数据时,将所述无人机下一干扰状态的位置数据输入至更新后的多步深度学习网络模型,获得所述无人机下一干扰状态的位置数据对应的移动方向数据;根据所述无人机下一干扰状态的位置数据对应的移动方向数据,对所述飞行航线进行更新,控制无人机沿着更新后的飞行航线移动;
S7:重复步骤S4~S6,对所述飞行航线进行更新,控制无人机沿着更新后的飞行航线移动,直到无人机移动至所述终止点。
2.根据权利要求1所述的无人机飞行航线更新规划的方法,其特征在于,所述根据所述无人机干扰状态的位置数据以及实时信噪比数据,获取所述无人机干扰状态的信号中断概率数据,包括步骤:将所述目标区域划分为若干个通信区域,根据所述无人机干扰状态的位置数据,确定所述无人机干扰状态关联的通信区域,并获取所述无人机干扰状态关联的通信区域的位置数据;
根据所述无人机干扰状态的位置数据、关联的通信区域的位置数据、实时信噪比数据以及预设的信号中断概率算法,获取所述无人机干扰状态的信号中断概率数据,其中,所述信号中断概率算法为:Pout(t)=P(st,bt,SIRt)
式中,Pout(t)为所述无人机第t个干扰状态的信号中断概率数据,st为所述无人机第t个干扰状态的位置数据,bt为所述无人机第t个干扰状态关联的通信区域的位置数据,SIRt为所述无人机第t个干扰状态的实时信噪比数据;P()为关于所述无人机的干扰状态的信号中断概率数据计算函数。
3.根据权利要求2所述的无人机飞行航线更新规划的方法,其特征在于:所述评估模块以及动作模块均为双网络结构,所述评估模块包括相同的、依次连接的第一子评估模块以及第二子评估模块,所述动作模块包括相同的、依次连接的第一子动作模块以及第二子动作模块。
4.根据权利要求3所述的无人机飞行航线更新规划的方法,其特征在于,所述将所述无人机干扰状态的位置数据输入至预设的多步深度学习网络模型的动作模块中,获取所述动作模块输出的所述无人机干扰状态的移动方向数据,包括步骤:将所述无人机干扰状态的位置数据输入至所述动作模块的第一子动作模块中,根据预设的移动方向数据计算算法,获取所述第一子动作模块输出的所述无人机干扰状态的移动方向数据,其中,所述移动方向数据计算算法为:at=μ(st|θμ)+Nt
式中,at为所述无人机第t个干扰状态的移动方向数据,μ()为所述第一子动作模块中的动作计算函数,st为所述无人机第t个干扰状态的位置数据,θμ为所述第一子动作模块的动作权重参数,Nt为预设的第t个干扰状态的噪音数据。
5.根据权利要求3所述的无人机飞行航线更新规划的方法,其特征在于,所述根据所述移动方向数据,对所述飞行航线进行更新,控制无人机沿着更新后的飞行航线移动,包括步骤:根据所述移动方向数据以及预设的移动方向对照表,获取所述移动方向数据对应的移动方向,根据所述移动方向,对所述飞行航线进行更新,控制无人机沿着更新后的飞行航线移动。
6.根据权利要求3所述的无人机飞行航线更新规划的方法,其特征在于,所述将所述无人机干扰状态的位置数据以及信号中断概率数据输入至所述多步深度学习网络模型的评估模块中,获取所述评估模块输出的所述无人机干扰状态的移动收益数据,包括步骤:将所述无人机干扰状态的位置数据以及信号中断概率数据输入至所述评估模块的第一子评估模块中,根据预设的移动收益数据计算算法,获取所述第一子评估模块输出的所述无人机干扰状态的移动收益数据,其中,所述移动收益数据计算算法为:rt=‑1‑δ*Pout(t+1)
式中,rt为所述无人机第t个干扰状态的移动收益数据,δ为惩罚权重参数,Pout(t+1)为所述无人机第t+1个干扰状态的信号中断概率数据。
7.根据权利要求6所述的无人机飞行航线更新规划的方法,其特征在于,所述根据所述无人机的移动收益关联组,对所述多步深度学习网络模型的动作模块以及评估模块进行更新,获取更新后的多步深度学习网络模型,包括步骤:根据所述无人机的移动收益关联组中的无人机干扰状态的位置数据,对所述无人机干扰状态下的位置进行判断,获取位置判断结果,其中,所述位置判断结果包括终点位置结果,位置偏移结果以及位置符合结果;
根据所述无人机干扰状态的位置判断结果、无人机干扰状态的移动收益数据以及预设的期望值计算算法,获取所述各个无人机的移动收益关联组对应的期望值,其中,所述期望值计算算法为:式中,yt为所述无人机第t个干扰状态的期望值,rt为所述无人机第t个干扰状态的移动收益数据,st+1为所述无人机第t+1个干扰状态的位置数据,ct为所述无人机第t个干扰状态的位置判断结果,A为终点位置结果,B为位置偏移结果,C为位置符合结果,γ为预设的期待系数,Q'()为所述第二子评估模块中的评估计算函数,μ'()为所述第二子动作模块中的动μ' Q作计算函数,θ 为所述第二子动作模块的动作权重参数;θ'为所述第二子评估模块的评估权重参数;Rdes为预设的奖励值,Pob为预设的惩罚值;
根据所述各个无人机的移动收益关联组对应的移动方向数据、位置数据,根据所述各个无人机的移动收益关联组对应的期望值、移动方向数据以及预设的误差计算算法,获取所述第一子评估模块的误差值,根据所述误差值,对所述第一子评估模块的评估权重参数进行更新,获取更新后的第一子评估模块的评估权重参数,其中,所述误差计算算法为:式中,L为所述误差值,N为所述无人机的移动收益关联组的总数,Q()为所述第一子评估模块中的评估计算函数,st为所述无人机第t个干扰状态的位置数据,at为所述无人机第tQ个干扰状态的移动方向数据,θ为所述第一子评估模块的评估权重参数;
根据所述各个无人机的移动收益关联组对应的期望值以及预设的梯度更新计算算法,获取所述第一子动作模块的梯度更新值,根据所述梯度更新值,对所述第一子动作模块的动作权重参数进行更新,获取更新后的第一子动作模块的动作权重参数,其中,所述梯度更新计算算法为:式中, 为第t个干扰状态的梯度更新值,μ()为所述第一子动作模块中的动作计算函数, 为Q()在第t个干扰状态下,对移动方向数据为μ(st)求解的梯度更新值, 为μ()在第t个干扰状态下,对所述第一子动作模块的动作权重μ
参数θμ求解的梯度更新值,α为预设的梯度下降步长,θ所述第一子动作模块的动作权重参数;
根据所述更新后的第一子评估模块的评估权重参数、更新后的第一子动作模块的动作权重参数以及预设的权重参数更新算法,分别对所述第二子评估模块的权重参数以及第二子动作模块的权重参数进行更新,获取更新后的第二子评估模块的评估权重参数、更新后的第二子动作模块的动作权重参数,其中,所述权重参数更新算法为:Q' Q Q' μ' μ μ'
θ ←τθ+(1‑τ)θ ,θ ←τθ+(1‑τ)θ
Q' μ'
式中,θ 为所述第二子评估模块的评估权重参数;θ 为所述第二子动作模块的动作权μ
重参数,θ所述第一子动作模块的动作权重参数,τ为预设的优化参数。
8.一种无人机飞行航线更新规划的装置,其特征在于,包括:
航线设定模块,用于获取无人机在目标区域内的飞行航线,控制无人机沿着所述飞行航线进行飞行,其中,所述飞行航线包括终止点;
干扰检测模块,用于获取无人机的飞行过程中的实时信噪比数据;根据所述实时信噪比数据,对所述无人机进行干扰检测,获取干扰检测结果;根据所述干扰检测结果,获取所述无人机当前时刻的位置数据作为当前干扰状态的位置数据,根据所述无人机干扰状态的位置数据以及实时信噪比数据,获取所述无人机干扰状态的信号中断概率数据;
第一航线更新模块,用于将所述无人机干扰状态的位置数据输入至预设的多步深度学习网络模型的动作模块中,获取所述无人机干扰状态的移动方向数据;根据所述移动方向数据,对所述飞行航线进行更新,控制无人机沿着更新后的飞行航线移动;
移动收益计算模块,用于将所述无人机干扰状态的位置数据以及信号中断概率数据输入至所述多步深度学习网络模型的评估模块中,获得所述无人机干扰状态的移动收益数据,并与无人机干扰状态的位置数据进行组合,作为所述无人机的移动收益关联组;
模型更新模块,用于获取无人机在飞行过程中经过预设数量的干扰状态位置对应的若干个所述无人机的移动收益关联组,根据所述无人机的移动收益关联组,对所述多步深度学习网络模型的动作模块以及评估模块进行更新,获取更新后的多步深度学习网络模型;
第二航线更新模块,用于在无人机检测到下一干扰状态的位置数据时,将所述无人机下一干扰状态的位置数据输入至更新后的多步深度学习网络模型,获得所述无人机下一干扰状态的位置数据对应的移动方向数据;根据所述无人机下一干扰状态的位置数据对应的移动方向数据,对所述飞行航线进行更新,控制无人机沿着更新后的飞行航线移动;
移动执行模块,用于对所述飞行航线进行更新,控制无人机沿着更新后的飞行航线移动,直到无人机移动至所述终止点。
9.一种计算机设备,其特征在于,包括:处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序;所述计算机程序被所述处理器执行时实现如权利要求
1至7任一项所述的无人机飞行航线更新规划的方法的步骤。
10.一种存储介质,其特征在于:所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的无人机飞行航线更新规划的方法的步骤。