1.一种基于多智能体强化学习的LEO星间链路的动态规划方法,其特征在于,包括:S1、根据欧氏距离、视线距离、通信速率和天线切换成本设计部分可观察马尔科夫决策过程模型,所述部分可观察马尔科夫决策过程模型的元素包括状态空间、动作空间和奖励函数;
S2、基于多智能体深度确定性策略梯度将接收到的所述部分可观察马尔科夫决策过程模型的元素对应的数据逐轨道平面地对卫星的智能体进行集中式训练,直到所述智能体收敛,求得可行卫星对组成的最优匹配图集合 使卫星网络函数效用最大化;
S3、智能体根据与智能体根据同属一个卫星的状态收集器收集到的本地状态数据进行决策,并将决策指令传输给与该智能体同属一个卫星的链路执行器,所述链路执行器根据该智能体的决策指令与相应的卫星建立平面间星间链路。
2.根据权利要求1所述的一种基于多智能体强化学习的LEO星间链路的动态规划方法,其特征在于,所述状态空间为Si={Di,Li,Ri},其中,Di为智能体i与视距范围内正向相邻轨道平面上的卫星的距离信息集合,Li为智能体i当前的正向星间链路连接的目标卫星,Ri为智能体i当前正向星间链路的通信速率,其中,智能体i的正向为:智能体i所在卫星u靠近平面((p(u)+1)mod M)的一侧为正向,背离平面((p(u)+1)mod M)的一侧为负向,p(u)为卫星u所在的轨道平面,M为轨道平面的数量。
3.根据权利要求2所述的一种基于多智能体强化学习的LEO星间链路的动态规划方法,其特征在于,所述动作空间为Ai={Vi,K},其中,Vi为智能体i视距范围内的正向相邻轨道平面上的卫星,K为不执行任何动作;若智能体i选择了动作ai∈Vi,则智能体i在其正向与动作ai对应的目标卫星建立平面间的星间链路;若智能体i的动作ai=K,则智能体i将不会建立正侧的星间链路。
4.根据权利要求3所述的一种基于多智能体强化学习的LEO星间链路的动态规划方法,其特征在于,所述奖励函数为其中Na=N‑Nm,为智能体个数,N为卫星的总个数,Nm为在第m个轨道平面上的卫星数量,ri为智能体i的贡献:其中,αi为智能体i的决策冲突折扣因子,ai为智能体i的动作,ρ为单位通信速率的利润,λ为智能体i的单位天线转向角转向成本, 为智能体i所在的卫星与ai对应的目标卫星之间的天线转向角,RSNR(i,ai)为智能体i所在的卫星与ai对应的目标卫星之间通信的最大数据速率。
5.根据权利要求4所述的一种基于多智能体强化学习的LEO星间链路的动态规划方法,其特征在于,S2的具体训练方法为:S2.1、初始化一个经验回放池 用以存储状态转移数据;
S2.2、从所述经验回放池中随机采样1024个状态转移数据,在每个决策时刻t结束时,更新智能体i的策略网络πi和价值网络 直到智能体i的策略网络πi和价值网络 收敛,其中, Na表示智能体个数,ai表示智能体i的动作,si表示智能体i的状态, 为第Na个智能体的动作, 为第Na个智能体的状态。
6.根据权利要求5所述的一种基于多智能体强化学习的LEO星间链路的动态规划方法,其特征在于,S2.1的具体实施步骤为:S2.1.1、初始化经验回放池;
S2.1.2、在每个决策时刻t开始时,智能体i根据当前策略网络πi、当前状态si,t={Di,Li,Ri}和噪声,选择并执行一个动作ai,t,ai,t~πi(·|si,t),同时,所述智能体i与相应的目标卫星建立星间链路;
S2.1.3、在智能体i与相应的目标卫星之间建立星间链路之后,所述智能体i将当前状态si,t转移至第二状态si,t+1并获取到奖励数据ri,t,ri,t为智能体i在决策时刻t获得的奖励数据;
S2.1.4、在状态转移以及奖励数据获取完成后,经验回放池记录状态转移(xt,xt+1,at,rt),其中 at为智能体在决策时刻t的动作集合,rt为智能体在决策时刻t获得的奖励数据集合, xt为智能体在决策时刻t
的状态数据集合,xt+1为智能体在决策时刻t+1的状态数据集合。
7.根据权利要求6所述的一种基于多智能体强化学习的LEO星间链路的动态规划方法,其特征在于,S2.2的具体实施步骤为:S2.2.1、在决策时刻t结束时,采用策略梯度法对智能体i的策略网络进行更新:目标值为: 其中, 是拥有延迟参数θ′i的目标策略网络集合,j代表随机采样的状态转移编号,γ代表折扣率,Na=N‑Nm为智能体的个数,该智能体所属卫星在轨道平面m上,N为卫星的数量,Nm为轨道平面m上拥有的卫星数量, 为卫星i的目标价值网络; 分别为卫星1,...,Na对应的动作数据; 卫星i的奖励函数;
S2.2.2、在决策时刻t结束时,通过最小化损失 来更新智能体i的价值网络;
其中, 代表所有的策略
网络集合; 为智能体i的价值网络;
S2.2.3、在决策时刻t结束时,利用策略梯度法 更新智能体i的策略网络的权值:S2.2.4、更新目标网络的权值θ′i:
θ′i←βθi+(1‑β)θ′i;β为学习率;
S2.2.5、重复S2.2.1‑S2.2.4,直到智能体i的策略网络πi和价值网络 收敛。
8.根据权利要求1所述的一种基于多智能体强化学习的LEO星间链路的动态规划方法,其特征在于,星座网络函数效用最大化表示为:其中, 为第n次决策的效用函数, ρ
为单位通信速率的利润,λ为单位天线转向角转向成本, 为卫星集,u为智能体i所在的卫星,v为ai对应的卫星,RSNR(u,v)为可行卫星对uv之间的信噪比,Nd为决策次数, 为第n次决策的匹配图,即可行卫星对组成的星座, 表示卫星在正负方向上的相邻顶点数量, 为卫星u、v之间的边的天线转向角,E为可行卫星对集合。
9.根据权利要求4所述的一种基于多智能体强化学习的LEO星间链路的动态规划方法,其特征在于,智能体i所在的卫星与ai对应的目标卫星之间的转向角 为:其中, 为智能体i所在的卫星的平均天线转向角, 为ai对应的目标卫星的平均天线转向角,n为决策次数, 为第n次决策时星座中所有平面间星间链路组成的匹配图,为n‑1次决策时星座中所有平面间星间链路组成的匹配图。
10.根据权利要求9所述的一种基于多智能体强化学习的LEO星间链路的动态规划方法,其特征在于,智能体i所在的卫星和ai对应的目标卫星组成的可行卫星对集合为:其中,l(iai)为智能体i所在的卫星与ai对应的目标卫星之间的视线距离;||iai||表示智能体i所在的卫星与ai对应的目标卫星之间的欧式距离;p(i)为智能体i所在的卫星所在的轨道平面,p(ai)为ai对应的目标卫星所在的轨道平面。