1.一种变电站无人机巡检航迹规划方法,其特征在于,包括:(1)构建变电站环境的三维栅格地图;
(2)通过DE算法对三维栅格地图进行全局多条航迹规划;
(3)通过NOA算法对全局多条航迹进行最优航迹求解,得到全局最优巡检航迹。
2.根据权利要求1所述的变电站无人机巡检航迹规划方法,其特征在于,步骤(1)包括:通过无人机机载激光雷达采集变电站环境数据;
将变电站待测区域划分为m×n×s个l×l的矩形栅格,每个矩形栅格在传感器坐标系中被赋予唯一的行列编号以及相应的角度信息;
激光雷达检测到的N个数据点位置设为:pi=(xi,yi,zi),i∈[1,N],将其投射到m×n×s个矩形栅格中;pi表示第i个数据点的位置信息;xi、yi、zi依次表示第i个数据点的x轴坐标、y轴坐标和z轴坐标;
计算每个小栅格被占用的概率Pi,公式如下:从传感器的坐标原点到每个小栅格中心的距离r公式如下:其中,l表示一个栅格的长度;多个小栅格信息叠层为三维栅格地图;
将变电站的每个栅格信息进行数据融合,最终得到完整的变电站环境的三维栅格地图。
3.根据权利要求2所述的变电站无人机巡检航迹规划方法,其特征在于,栅格状态的判断依据如下:① 当 时,判定此栅格处于占用状态,并令pi=1;
② 当 时,判定此栅格处于未占用状态,并令pi=0。
4.根据权利要求1所述的变电站无人机巡检航迹规划方法,其特征在于,步骤(2)包括:(201)初始化种群
假设在一个D维的问题解空间中均匀随机地生成NP个无人机初始个体xj,i,0,公式如下:xj,i,0=xj,min+rand[0,1]×(xj,max,xj,min),i=1,2,…,NP,j=1,2,…,D
其中,xj,i,0为第0代种群中的初始个体;xj,min为无人机个体x第j维分量的最小值;rand[0,1]为[0,1]区间内均匀产生的随机数;xj,max为无人机个体x第j维分量的最大值;NP为种群的大小;D不超过3;
(202)变异操作
通过差分策略生成变异个体Vi,G,公式如下:i i i
其中,Vi,G为第G代种群的变异个体;r1 ,r2 ,r3为随机选取的个体序号;F为权重因子;
和 为从第G代种群中取出的个体,作为目标个体X;
(203)交叉操作
通过随机方式将变异个体与目标个体的各维度分量进行组合,进而生成交叉个体uj,i,G,公式如下:其中,uj,i,G为第G代种群中交叉个体第j维分量;vj,i,G为第G代种群中变异个体的第j维分量;xj,i,G为第G代种群中目标个体的第j维分量;CR为交叉概率,取值范围为[0,1];jrand为[1,2,…,NP]之间的随机数;
(204)选择操作
选择更加适应环境的最佳个体进入子代继续繁衍,公式如下:其中,Xi,G+1为第G+1代种群的目标个体位置;Ui,G为第G代种群的交叉个体位置;Xi,G为第G代种群的目标个体位置;
(205)重复变异、交叉和选择操作,直至达到预设迭代次数或无人机的航迹数量要求,得到全局多条航迹。
5.根据权利要求1所述的变电站无人机巡检航迹规划方法,其特征在于,步骤(3)包括:(301)种群初始化
将DE算法得到的全局多条航迹作为NOA算法的问题搜索空间解集,设定其中每一个个体 表示一条全局航迹路径;种群初始化公式如下:其中, 表示个体i的第j维变量;t表示迭代次数; 表示第j维变量的上界; 表示第j维变量的下界; 是[0,1]之间的随机向量;N为种群的规模;D为问题搜索空间的维度,不超过3维;
(302)觅食
在问题搜索空间内寻找相对最优解,星鸦个体在寻优过程中的位置更新公式如下:其中, 是第i个星鸦第t+1次迭代的位置; 是第i个星鸦当前第t次迭代的第j个位置; 是当前种群在第t次迭代中第j维的所有解的均值;γ是根据莱维飞行生成的随机数;A,B,C是三个随机数;Uj是优化问题第j维的上界;Lj是优化问题第j维的下界;τ1,τ2,r和r1是[0,1]之间的随机实数;Tmax表示最大迭代次数;δ表示问题搜索空间内可覆盖区域的概率估计;
μ是基于正态分布(τ4)、莱维飞行(τ5)和在0~1之间随机生成的数字(τ3),如下式所示:其中,r2和r3是[0,1]之间的随机实数;
(303)食物的储存
星鸦个体在寻找到相对最优航迹之后,将最优航迹保存并转移至设定的储存点,公式如下:其中, 是当前星鸦个体储存区域的新位置; 是第i个星鸦当前第t次迭代位置; 是目前得到的第t次迭代第j维的最佳位置解; 和 是第t次迭代随机选取星鸦个体的位置;λ是根据莱维飞行所生成的随机数;τ3是[0,1]之间的随机数;l是一个从1~
0的线性递减因子;
(304)第二阶段觅食
最优航迹求解过程中,NOA算法会选择合适的参考点更新存储地点,并应用相应的探索机制来搜索最有希望的区域,这些区域中可能会包含一个近似最优解;
位置更新公式如下:
其中, 是第i个星鸦第t+1次迭代的新位置; 是第i个星鸦第t次迭代的当前位置;
是第一参考点;
(305)第二阶段开发
星鸦在搜索储存点时,可能会遇到两大可能性:第一个可能性是,星鸦可以使用第一参考点记住储存点的位置;若记住了储存点的位置,则还有两种可能性,如下:第一种是食物存在,第二种是食物不存在;这一行为的数学表达式如下:其中, 是更新后的位置;j是维度; 是当前迭代的最佳位置; 是第i个星鸦当前位置的第一参考点;r1、r2、τ3和τ4是[0,1]之间的随机数;C是指从种群中随机选择的一个解的索引;
第二种可能性是,星鸦利用第一参考点没有找到储存点的位置,再利用第二参考点继续搜索,具体公式如下:其中, 是第二参考点;
若假设星鸦在使用第二参考点时,找到了它的储存点,则第二参考点的更新公式为:其中,r1、r2、τ5和τ6是[0,1]之间的随机数。
6.根据权利要求5所述的变电站无人机巡检航迹规划方法,其特征在于,参考点的位置计算公式如下:第一参考点的位置更新公式如下:
第二参考点的计算公式如下:
其中, 和 表示当前第t次迭代第i个星鸦储存点位置 的两个参考点,其中为第一参考点, 为第二参考点;α是从1~0线性递减因子;θ是[0,π]之间的随机数; 为当前第t次迭代第A个星鸦的储存点位置; 为当前第t次迭代第B个星鸦的储存点位置; 是D维优化问题的上界;是D维优化问题的下界;τ3是一个[0,1]之间的随机数;
是指一个从0~1之间随机生成数的向量;Prp为用于确定在搜索空间内星鸦进行全局探索其他区域的概率的参数。
7.根据权利要求6所述的变电站无人机巡检航迹规划方法,其特征在于,从1~0线性递减因子α计算公式如下:其中,t代表当前迭代的次数;Tmax代表最大迭代次数。
8.根据权利要求1至7中任一项所述的变电站无人机巡检航迹规划方法,其特征在于,还包括:(4)通过改进的D3QN算法对全局最优巡检航迹进行局部航迹优化,D3QN算法的改进方式为:D3QN算法通过ALS法获得最大Q值。
9.根据权利要求8所述的变电站无人机巡检航迹规划方法,其特征在于,步骤(4)包括:在给定策略π的情况下,处于状态st的无人机基于其当前状态采取的动作操作at;在采取行动后,无人机进入新的状态st+1,并从环境中接收奖励值rt;
*
设置最优移动策略为π,最大化累积奖励值 其中,rτ表示在τ时刻从环境中获得的奖励值;T为结束时的时间;γ∈[0,1],为折现系数;
巡检无人机运动体系结构计算公式如下:
给定策略π:st→at,状态st和状态‑动作对(st,at)的值的定义如下:π
Q(st,at)=Eπ[Rπ|st,at]π
其中,Q (st,at)为状态‑动作值函数,表示在给定策略π下,无人机在状态st处采取的动π作操作at的累积奖励值;V (st)为状态值函数,表示在策略π下,无人机在状态st处的累积奖励值;E表示期望值;Rπ表示在给定策略π下的,无人机在状态st处采取的动作操作at的即时奖励值;
D3QN算法通过最小化目标Q值和预测Q值之间的平方误差来训练神经网络,其损失函数为:其中,θi是神经网络的权重向量; 是Q函数的目标值;rt为奖励值;γ∈[0,1],为折现系数;
收集实验期间的经验元组(st,at,rt,st+1)并将其存储在重放存储器D中;在优化过程中,随机抽样小批量的经验值并输入到网络中,以此解决连续样本数据之间的相关性问题;
D3QN算法通过ALS法获得最大Q值,代入Bellman方程得到目标Q值;
设立矩阵R为评价矩阵,影响矩阵P和目标值矩阵Q;评价矩阵R分解成影响矩阵P和目标值矩阵Q相乘,得到对目标Q值的筛选;
其中,Ru,i表示目标u对值i的喜好程度;M为隐因子数目;Pu,m为目标u对第m个隐因子喜好程度;Qi,m为值i在第m个隐因子的权重;
使用均方误差(RMSE)来训练P,Q矩阵,其损失函数为:其中,rui表示目标u对值i的评分结果,pu表示目标u的隐含特征因子向量,qi为值i的隐
2 2
含特征因子向量;λ表示用于防止模型的过拟合的正则化项系数;||pu||和||qi||分别表示pu和qi的范数;k代表所有的(u,i)元素的集合;
使用交替最小二乘法改进损失函数,固定其中一个矩阵,先固定Q,计算损失函数L(p,q)对pu的偏导数等于0,得到公式如下:T ‑1 T
pu=(QQ+λE) +Qru
同理,固定P,继续计算L(p,q)对qi的偏导数等于0,得到公式如下:T ‑1 T
qi=(PP+λE) +Pri
其中,E为f×f的单位矩阵;ru表示目标u的评分结果;ri表示值i的评分结果;
采用DDQN算法解耦目标Q值的选择和计算,然后将动作操作值和下一个状态值替换到目标网络中,计算目标Q值;
值函数V(st;ω,β)只与状态值有关而与动作操作值无关,与状态值和动作操作值都相关的是优势函数A(st,at;ω,α);
Q函数计算公式如下:
其中,ω是两个子网络的公共参数;α是主导函数子网络的参数,β是优势函数子网络的参数, 是优势函数的平均值;
将无人机运动控制任务分解成多个子任务,每个子任务由不同的奖励函数标识;在t时刻,总奖励值等于所有子任务的奖励值之和,用以下公式来计算:
10.根据权利要求9所述的变电站无人机巡检航迹规划方法,其特征在于,将无人机的运动控制任务分解成速度控制与方向控制;
速度控制分支的奖励函数可以定义如下:
其中,r是用于调整奖励大小的参数;v是无人机的当前速度;vmax是无人机的最大速度;
vmin是无人机的最小速度;
方向控制的奖励函数可表示为:
速度控制奖励函数与方向控制函数用于控制无人机的正常运动;当发生碰撞,应给予无人机相对较大的反馈,以确保无人机在运动过程中的安全;
碰撞奖励函数定义为:
其中,d是与周围物体的最小距离;Dmax和Dmin是两个距离阈值;
巡检无人机通过控制速度和方向实现避障,以此建立碰撞奖励函数,碰撞奖励函数的计算公式为:其中, 表示在第t次迭代中,执行第k个子任务时获得的即时奖励; 为速度控制奖励值与方向控制值的累积之和;
每个Q网络分支的奖励函数都有一个相应的Q值函数;QMDA根据各自的权重进行组合,用于选择无人机的动作操作;
损失函数可更新为:
其中,Li表示第i个动作的损失函数;θi是神经网络的权重向量; 表示在状态st,采取动作at,获得奖励rt和下一个状态st+1下的期望值; 是Q函数的目标值; 表示在第t次迭代中,执行第k个子任务时获得的即时奖励;γ∈[0,1]为折现系数;yk,i表示在第k个子任务中的第i个目标Q值。