1.一种基于强化学习的无人机智能决策方法,其特征在于,包括:获取防御方无人机编队信息和无人机编队防御策略;防御方无人机编队包括多架无人机;所述无人机编队防御策略用于指示所述多架无人机的决策方案,所述决策方案包括防御动作和飞行方向;所述防御动作包括空中巡逻、呼叫友机和本机撤退;
控制所述防御方无人机编队执行所述无人机编队防御策略;
获取处于巡逻状态的巡逻无人机,并获取所述巡逻无人机的探测结果;
根据所述探测结果生成决策方案更新模型;所述决策方案更新模型包括状态空间、决策方案、奖励回报和收益函数;所述状态空间由所述探测结果生成;所述奖励回报至少包括基于微分博弈获取的界栅奖励;
求解所述决策方案更新模型,并根据模型解更新所述巡逻无人机的决策方案;
根据更新后的决策方案更新所述无人机编队防御策略,并控制所述防御方无人机编队执行更新后的无人机编队防御策略;
无人机智能决策方法所述求解所述决策方案更新模型,包括:根据所述状态空间获取攻击方无人机的无人机状态信息;
根据所述无人机状态信息计算至少包括所述界栅奖励的奖励回报;
根据所述奖励回报对所述收益函数进行求解;
无人机智能决策方法所述无人机状态信息包括所述巡逻无人机与攻击方无人机的速度比;
所述界栅奖励的获取过程,包括:
基于所述速度比和所述防御方无人机编队的防御阵地的位置,采用微分博弈构建所述巡逻无人机的界栅,以构建所述巡逻无人机的追捕区和逃逸区;
获取界栅奖励,包括:
其中,下标CCZ、CEZ分别表示位于巡逻无人机的追捕区和逃逸区内的所有攻击方无人机;
表示在单个周期内,巡逻无人机与追捕区内所有攻击方无人机间的距离减少量;
表示在单个周期内,巡逻无人机与逃逸区内所有攻击方无人机间的距离减少量;
所述无人机状态信息还包括所述巡逻无人机击败的第一攻击方无人机数量和进入所述防御方无人机编队的防御阵地的第二攻击方无人机数量;
根据所述无人机状态信息计算至少包括所述界栅奖励的奖励回报,还包括:根据所述无人机状态信息获取第一奖励回报,包括:其中,Rtarget表示第一奖励回报;m1表示第一攻击方无人机数量,m2表示第二攻击方无人机数量;
表示击败攻击方无人机j的奖励分数,若攻击方无人机j在巡逻无人机的逃逸区内于该巡逻无人机呼叫友机后被击败,则奖励分数升级至第一基础奖励分数的预设倍率,否则保持为第一基础奖励分数;
表示攻击方无人机j进入防御阵地的奖励分数,若攻击方无人机j在巡逻无人机的追捕区内于该巡逻无人机呼叫友机后进入防御阵地,则奖励分数升级至第二基础奖励分数的预设倍率,否则保持为第二基础奖励分数;
获取第二奖励回报,包括:
其中,Rtime表示第二奖励回报;m3表示巡逻无人机数量;
计算奖励回报,包括:
其中,R表示奖励回报。
2.如权利要求1所述的无人机智能决策方法,其特征在于,所述收益函数为:其中, argmaxf(x)表示使目标函数f(x) 取最大值的变量x的取值;θ表示飞行方向;Rt(t)表示第t个周期的奖励回报;γ 表示折现因子,γ 表示折现因子的t次方。
3.如权利要求1所述的无人机智能决策方法,其特征在于,在执行获取处于巡逻状态的巡逻无人机后,还包括:控制巡逻无人机进行计时,并检测计时时长;
如果在预设的巡逻周期内,所述巡逻无人机未探测到攻击方无人机,则更新所述巡逻无人机的决策方案,以将所述巡逻无人机的防御动作设置为本机撤退;
如果在预设的巡逻周期内,所述巡逻无人机探测到攻击方无人机,将所述计时时长更新为0,并控制巡逻无人机进行计时。
4.根据权利要求1所述的无人机智能决策方法,其特征在于,在执行获取所述巡逻无人机的探测结果后,还包括:获取所述巡逻无人机的巡逻威胁值;
如果所述巡逻威胁值大于或等于预设的威胁值阈值,则更新所述巡逻无人机的决策方案,以将所述巡逻无人机的防御动作设置为呼叫友机;
如果所述巡逻威胁值小于预设的威胁值阈值,则执行根据所述探测结果生成决策方案更新模型的步骤。
5.根据权利要求4所述的无人机智能决策方法,其特征在于,获取所述巡逻无人机的巡逻威胁值,包括:根据所述巡逻无人机的探测结果获取所述巡逻无人机探测到的目标攻击方无人机;
获取所述目标攻击方无人机的行动策略;所述行动策略包括突进策略、回撤策略和其他策略;所述突进策略为目标攻击方无人机向所述防御方无人机编队的防御阵地进行突进的行为,所述回撤策略为目标攻击方无人机撤退的行为,所述其他策略为所述突进策略和所述回撤策略以外的策略行为;
根据所述行动策略获取策略威胁值;
获取位置威胁值,包括:
其中,Wdistance表示位置威胁值,dmax表示防御方无人机编队的无人机的最大巡逻距离,*表示目标攻击方无人机j 距离防御阵地的距离;
根据所述策略威胁值和所述位置威胁值计算所述巡逻无人机的巡逻威胁值。
6.根据权利要求1所述的无人机智能决策方法,其特征在于,所述模型解包括多种决策方案的概率分布;
根据模型解更新所述巡逻无人机的决策方案,包括:根据所述模型解获取概率最大的决策方案,并更新为所述巡逻无人机在下一周期的决策方案;
根据更新后的决策方案更新所述无人机编队防御策略,包括:根据所述更新后的决策方案获取防御动作为呼叫友机的第三无人机数量,以及获取防御动作为本机撤退的撤退无人机;
在防御方无人机编队中获取所述第三无人机数量对应的候补无人机,并更新所述候补无人机的决策方案,以将所述候补无人机的防御动作设置为空中巡逻;
将所述候补无人机设置为巡逻无人机,将所述撤退无人机取消设置为巡逻无人机;
统计防御方无人机编队中多架无人机更新后的决策方案,以生成下一周期的无人机编队防御策略。
7.一种基于强化学习的无人机智能决策系统,其特征在于,用于执行如权利要求1所述的无人机智能决策方法,所述系统包括:信息获取模块,被配置为获取防御方无人机编队信息和无人机编队防御策略;防御方无人机编队包括多架无人机;所述无人机编队防御策略用于指示所述多架无人机的决策方案,所述决策方案包括防御动作和飞行方向;所述防御动作包括空中巡逻、呼叫友机和本机撤退;
策略执行模块,被配置为控制所述防御方无人机编队执行所述无人机编队防御策略;
结果探测模块,被配置为获取处于巡逻状态的巡逻无人机,并获取所述巡逻无人机的探测结果;
模型生成模块,被配置为根据所述探测结果生成决策方案更新模型;所述决策方案更新模型包括状态空间、决策方案、奖励回报和收益函数;所述状态空间由所述探测结果生成;所述奖励回报至少包括基于微分博弈获取的界栅奖励;
方案更新模块,被配置为求解所述决策方案更新模型,并根据模型解更新所述巡逻无人机的决策方案;
策略更新模块,被配置为根据更新后的决策方案更新所述无人机编队防御策略,并控制所述防御方无人机编队执行更新后的无人机编队防御策略。
8.一种存储介质,其特征在于,其存储用于基于强化学习的无人机智能决策的计算机程序,其中,所述计算机程序使得计算机执行如权利要求1~6任一项所述的基于强化学习的无人机智能决策方法。