1.一种面向任务集合的多无人机三维路径规划方法,其特征在于,包括:S1、获取待巡检的任务集合和无人机资源;
S2、根据所述待巡检的任务集合和无人机资源,以最小化所有无人机完成巡检任务的时间为优化目标,构建整数规划模型;
S3、采用整合Q‑learning机制的遗传算法求解所述整数规划模型,获取多无人机三维路径规划结果;
所述S3包括:
S31、令迭代次数t=1;根据模型的约束条件生成初始种群,初始化Q表;其中,染色体编码规则具体是指:单条三行染色体代表一个解,染色体的总长度等于任务点数量;每个任务点都预先标记有唯一序列号,第二行染色体代表任务点序列;第一行染色体代表任务点序列对应的簇序列;第三行染色体代表无人机序号,表示任务点被该架无人机选中进行访问,若为0则不被访问;
S32、若达到最大迭代次数则停止,并解码当前最优染色体作为所述多无人机三维路径规划结果,否则继续执行;
S33、计算种群目标函数值;其中,采用线性转换法将模型的目标函数转化为适应度函数,变换公式如下:F′=aF+b
其中,F′表示适应度函数,a、b为线性方程的超参数,且a<0,F为目标函数;
S34、根据种群目标函数值评判当前种群所处状态;根据当前种群所处状态进行动作选择,并计算奖励,更新Q表;
S35、采用轮盘赌策略从当前种群中选取M个母体;
S36、根据S34选择动作确定的交叉概率,对M个母体进行交叉操作;
S37、根据S34选择动作确定的变异概率,对M个交叉后的个体进行变异操作;
S38、将父代种群和子代种群合并,得到规模为2M的种群;
S39、采用基于适应度排序的重插入方法在2M种群中选出M个个体,得到新一代种群;令t=t+1,回到S32;
所述S34中根据种群目标函数值评判当前种群所处状态,具体包括:S341、分别求解当前种群的平均种群目标函数z1、种群的多样性z2、种群的最佳目标函数值z3;
其中, 为第t次迭代中第u个个体的目标函数值; 为第1次迭代中第w个个体的目标函数值; 为第t次迭代中最优个体的目标函数值,为第t次迭代中最差个体的目标函数值;
S342、求解当前种群所处状态;
*
S=w1*z1+w2*z2+w3*z3
其中,w1,w2,w3分别为对应度量值的权重。
2.如权利要求1所述的面向任务集合的多无人机三维路径规划方法,其特征在于,所述S2中的整数规划模型包括:以最小化所有无人机完成巡检任务的时间为优化目标的目标函数:其中,i、j为任务点或者虚拟站点索引,i,j∈N∪ D;
N为任务点集;
D为虚拟站点集,一架无人机对应一个虚拟站点,虚拟站点用于保证每架无人机均从起点出发最后回到起点,虚拟站点的坐标均是起点坐标;
Rij为任务点i到任务点j之间的可靠距离;
Fl为簇l对应的任务点集合;
ml为簇l中需要被访问的任务点数量;
v为无人机速度;
xij为决策变量,当任务点i连接任务点j时,取1,否则取0。
3.如权利要求2所述的面向任务集合的多无人机三维路径规划方法,其特征在于,所述S2中的整数规划模型还包括:约束条件:
(1)每个虚拟站点出入各一次,即每架无人机均从起点出发,再回到起点,(2)如果点j存在入流,则点j被无人机访问,(3)如果点i存在入流,则点i也被无人机访问,(4)每个簇中需要有指定数量的任务点被访问,(5)每个点至多只能访问一次,
(6)如果路径(i,j)被选中,则点i和点j要被同一个无人机访问,(7)消除子回路约束,
其中,k为无人机索引,k∈K;
n为任务点与虚拟站点数量之和;
zik、zjk分别表示任务点i、j被无人机k访问的次序;
yik、yjk均为决策变量,当无人机k访问任务点i时,yik取1,否则取0;当无人机k访问任务点j时,yjk取1,否则取0。
4.如权利要求1所述的面向任务集合的多无人机三维路径规划方法,其特征在于,所述S34中根据当前种群所处状态进行动作选择,并计算奖励,更新Q表,具体包括:S343、根据当前种群所处状态,采用ε‑贪婪策略进行动作选择,确定交叉概率和变异概率;所述ε‑贪婪策略是指:其中,π(st,at)表示st状态下选择的最优策略;
定义S={s1,…,sn}是状态集合,n为状态总数;A={a1,…,am}是待执行的候选动作集合,m为动作总数,其中a1=(Pc1,Pm1),a2=(Pc2,Pm2),以此类推;Pc为交叉概率,Pm为变异概率;Q(st,a)表示在st状态下可选择的动作集合;Maxa(Q(st,a))表示在st状态下选择Q表中Q值最大的动作;ξ为一个随机数;rand(0,1)表示在0到1之间随机生成一个小数;ε表示勘探速率参数;
S344、计算奖励,
r=y1*r1+y2*r2
其中,r为奖励函数值,y1、y2分别为对应度量值的权重;r1>0表示如果第t代的最优个体的目标函数值优于第t‑1代,则奖励当前的交叉概率Pc有效;r2>0表示如果第t代的平均目标函数值优于第t‑1代,则奖励当前的变异概率Pm有效;
S345、更新Q表,
Q(st,at)=(1‑α)Q(st,at)+α(r+γmaxaQ(st+1,at+1))其中,Q(st,at)表示在状态st下采取行动at获得的Q值,Q(st+1,at+1)表示在状态st+1下采取行动at+1获得的Q值;α为Q‑learning的学习因子;r为当前状态st下的奖励;γ为是算法的折扣系数。
5.一种面向任务集合的多无人机三维路径规划系统,其特征在于,用于执行如权利要求1所述的多无人机三维路径规划方法,包括:数据获取模块,用于获取待巡检的任务集合和无人机资源;
模型构建模块,用于根据所述待巡检的任务集合和无人机资源,以最小化所有无人机完成巡检任务的时间为优化目标,构建整数规划模型;
结果求解模块,用于采用整合Q‑learning机制的遗传算法求解所述整数规划模型,获取多无人机三维路径规划结果。
6.一种存储介质,其特征在于,其存储有用于面向任务集合的多无人机三维路径规划的计算机程序,其中,所述计算机程序使得计算机执行如权利要求1~4任一项所述的面向任务集合的多无人机三维路径规划方法。
7.一种电子设备,其特征在于,包括:
一个或多个处理器;存储器;以及一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如权利要求1~4任一项所述的面向任务集合的多无人机三维路径规划方法。