利索能及
我要发布
收藏
专利号: 202211488163X
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种内部状态未知的无人集群系统输出同步优化控制方法,其特征在于,包括以下步骤:

S1:根据无人集群系统各个无人机之间的连接情况,构建出所述无人集群系统的拓扑结构及拉普拉斯连接矩阵;

S2:通过状态估计器估计所述无人集群系统未知的内部状态,将所述无人机划分为领导者无人机和追随者无人机,重构无人机的局部状态误差系统,并定义性能函数;

S3:采用Q学习算法中的Actor‑Critic网络结构分别近似无人机的控制动作和性能函数,采用Critic网络对所述性能函数进行近似处理,Actor网络根据所述性能函数更新无人机的控制动作;

S4:Critic网络对Actor网络近似的控制动作进行评价,Actor网络根据Critic网络的评价对控制动作进行调整,整个过程使用梯度下降更新;在训练神经网络参数时采用经验回放策略和目标网络技术,当Actor‑Critic网络结构的神经网络参数不再更新时,即获取到近似优化输出一致控制策略。

2.根据权利要求1所述的一种内部状态未知的无人集群系统输出同步优化控制方法,其特征在于:步骤S2中的状态估计器如下:其中,W是观测增益矩阵; 表示追随者无人机i在k+1时刻的状态观测值,A,Bi,C为不同的未知常数矩阵; 追随者无人机i在k时刻的状态观测值,μi(k)表示追随者无人机i在k时刻的控制输入,yi(k)表示追随者无人机i在k时刻的控制输出, 表示追随者无人机i在k时刻的控制输出观测值。

3.根据权利要求1所述的一种内部状态未知的无人集群系统输出同步优化控制方法,其特征在于:步骤S2中的领导者无人机与追随者无人机采用相对应的领导者动态方程与追随者动态方程进行更新;并根据所述领导者动态方程与追随者动态方程重构得到无人机的局部状态误差系统,基于所述无人机的局部状态误差系统确定性能函数,其中:领导者无人机动态方程表示为:

追随者无人机动态方程表示为:

其中,x0(k+1)表示领导者无人机在k+1时刻的状态值,x0(k)表示领导者无人机在k时刻的状态值,y0(k)表示领导者无人机在k时刻的控制输出,xi(k+1)表示追随者无人机i在k+1时刻的状态值,yi(k)表示追随者无人机i在k时刻的控制输出,xi(k)表示追随者无人机i在k时刻的状态值,μi(k)表示追随者无人机i在k时刻的控制输入,A,Bi,C为不同的未知常数矩阵;

无人机的局部状态误差系统重构为:

其中, 表示追随者无人机i在k时刻的局部状态误差系统,bi表示追随者无人机是否能接收领导者无人机的状态信息,bi=1表示追随者无人机能够接收领导者无人机的信息,bi=0表示追随者无人机不能接收领导者无人机的信息;aij≥0表示追随者无人机i接收追随者无人机j的状态信息情况,aij>0表示追随者无人机i能够接收追随者无人机j的状态信息,aij=0表示追随者无人机i不能接收追随者无人机j的状态信息;Ni表示追随者无人机i的邻居追随者无人机集合; 表示追随者无人机i在k时刻的状态观测值, 表示追随者无人机j在k时刻的状态观测值;

消耗性能函数表示为:

其中, 追随者无人机i在k时刻的消耗性能函数,ci(eiy(k),μi(k))表示追随者无人机i在k时刻与环境交互过程中做了控制策略μi(k),Qi表示追随者无人机i的权重矩阵,Qi≥0;

Ri表示追随者无人机i的对称矩阵,Ri>0;0<γ<1是折扣因子。

4.根据权利要求1所述的一种内部状态未知的无人集群系统输出同步优化控制方法,其特征在于:步骤S4中,Critic网络对Actor网络近似的控制动作进行评价包括Critic网络通过性能函数的输出值来评价无人机控制动作的优劣,采用网络近似结构得出近似性能函数,采用贝尔曼方程得出贝尔曼性能函数,利用差分函数求得所述近似性能函数与所述贝尔曼性能函数的差分性能函数;使所述差分性能函数最小化,利用梯度下降法训练调整Critic网络的神经网络参数。

5.根据权利要求4所述的一种内部状态未知的无人集群系统输出同步优化控制方法,其特征在于:步骤S4中,Critic网络的神经网络参数更新公式表示为:其中,Wci,new表示Critic网络中追随者无人机i的更新权重参数,Wci,now表示Critic网络中追随者无人机i的当前权重参数,βci表示Critic网络中追随者无人机i的学习率,eci(k)表示Critic网络中性能函数差分误差,f(·)=tanh(·)表示激活函数,zci(k)表示Critic网络中包含追随者无人机i及其邻居无人机的动作信息及相关位置信息的输入向量。

6.根据权利要求1所述的一种内部状态未知的无人集群系统输出同步优化控制方法,其特征在于:步骤S4中,Actor网络采用包含追随者无人机本身及其邻居无人机的局部状态误差系统信息,利用近似性能函数来近似控制动作;计算出近似性能函数与期望的最终消耗目标的差值损失,利用梯度下降法训练调整Actor网络的神经网络参数。

7.根据权利要求6所述的一种内部状态未知的无人集群系统输出同步优化控制方法,其特征在于:步骤S4中,Actor网络的神经网络参数更新公式表示为:其中,Wai,new表示Actor网络中追随者无人机i的更新权重参数,Wai,now表示Actor网络中追随者无人机i的当前权重参数,βai表示Actor网络中追随者无人机i的学习率, 表示Actor网络中追随者无人机i在k时刻的局部状态误差系统, 表示f(zci(k))关于zci(k)的偏导;zci(k)表示Critic网络中包含追随者无人机i及其邻居无人机的动作信息及相关位置信息的输入向量。