利索能及
我要发布
收藏
专利号: 2024116096811
申请人: 中南大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于深度强化学习的空天地网络拥塞控制方法,包括如下步骤:S1.获取目标空天地网络的数据信息;

S2.根据步骤S1获取的数据信息,设定优化目标,并进行建模;

具体实施时,设定的优化目标包括用户应用的吞吐量、延迟、抖动、数据包丢失率和可靠性;将拥塞控制定义为一个考虑动态延迟、探求平衡状态,并保证公平性的决策问题;

S3.对决策过程的状态空间、动作空间和奖励函数进行设置;

具体实施时,状态空间包括空天地集成网络GASN状态、网络层NL状态和传输层TL状态;

根据发送速率控制的动作表达式和当前状态,将发送速率更新动作转换为拥塞窗口更新动作;设定子流f的奖励函数,将一个时间的全部状态‑动作序列划分为若干个相同且长度为LSAS的短序列,并估计每个短序列的累积奖励;

S4.构建决策过程的状态预测模块、奖励再分配模块和优化策略模块;

具体实施时,通过状态预测模块预测得到最新的GASN和NL状态,将预测得到的GASN和NL状态和所有流的TL状态合并作为全局状态,输入到表征网络中提取特征向量;在动作选取过程中,每个智能体采用经典演员‑评论家架构,通过接收与自己负责的流以及特征向量相关的GASN、NL和TL状态信息,来优化其效用函数,进而决定其控制的特定流的发送速率;

在具体训练过程中,奖励再分配模块将环境在特定时期提供的累积奖励重新分配到每个状态‑动作对以构成能够直接学习的经验样本;采用基于GRU的神经网络作为表征网络;

S5.根据构建的模块,进行基于深度强化学习的空天地网络的拥塞控制。

2.根据权利要求1所述的基于深度强化学习的空天地网络拥塞控制方法,其特征在于步骤S2所述的根据步骤S1获取的数据信息,设定优化目标,并进行建模,具体包括如下步骤:设定的优化目标包括用户应用的吞吐量、延迟、抖动、数据包丢失率和可靠性;

吞吐量表示单位时间内成功传输的数据量,用于反映网络的传输能力和应用的数据传输效率;

延迟表示数据从发送到接收的总时间,用于反映用户应用的响应速度和实时性;

抖动表示连续数据包到达时间间隔的变化情况,用于反映流媒体应用的播放质量;

数据包丢失率表示数据传输过程中丢失的数据包占总发送数据包的比例用于反映用户应用的可靠性和完整性;

可靠性表示网络系统在给定时间内无中断服务的能力,用于反映用户应用的持续性和可用性;

设定F为具有优化目标中至少一个且至多两个目标的流集合,Tf(t)为在t时刻测量的由单个地面用户启动的子流f的长期吞吐量,Lf(t)为在t时刻测量的由单个地面用户启动的子流f的长期丢包率,且定义为式中Lep为考虑的周期数; 为第k个周期测量的吞吐量;η为设定的衰减系数;

为第k个周期测量的数据包丢失率;

采用Df(t)表示在t时刻测量的子流f的延迟,Jf(t)表示在t时刻测量的子流f的抖动,Rf(t)表示在t时刻测量的子流f的可靠性;将t时刻的单指标效用函数 设定为式中SI表示考虑的单指标因素;T表示吞吐量指标;L表示数据包丢失率指标;D表示延迟指标;J表示抖动指标;R表示可靠性指标;

F在t时刻除子流f外的所有流的单指标效用和 表示为式中f'表示F中除子流f外的任意流; 为f'在t时刻的单指标效用函数;

采用两个双指标效用函数,表示为

式中 为考虑吞吐量和延迟双指标的效用函数; 为吞吐量权重; 为延迟权重; 为考虑可靠性和数据包丢失率双指标的效用函数; 为可靠性权重; 为数据包丢失率权重;Uα()为公平系数函数,且 α为公平性参数;

F在t时刻除子流f外的所有流的双指标效用和 表示为

3.根据权利要求2所述的基于深度强化学习的空天地网络拥塞控制方法,其特征在于步骤S3中的对决策过程的状态空间进行设置,具体包括如下步骤:将空天地网络环境信息和网络层信息纳入状态空间,动态学习潜在瓶颈链路;

在t时刻的状态空间包括空天地集成网络状态、网络层状态和传输层状态,表示为其中, 为子流f在t时刻的状态,且表示为为t时刻子流f的空天地集成网络状态, 为t时刻子流f的网络层状态, 为t时刻子流f的传输层状态;

和 具体表示为

式中 为t时刻空‑地链路信道增益; 为t时刻空‑天链路信道增益; 为t时刻天‑地链路信道增益; 为t时刻空‑地链路已使用功率与最大功率的比值; 为t时刻空‑天链路已使用功率与最大功率的比值; 为t时刻天‑地链路已使用功率与最大功率的比值; 为t时刻空‑地链路已使用的频带与总频带资源的比值; 为t时刻空‑天链路已使用的频带与总频带资源的比值; 为t时刻天‑地链路已使用的频带与总频带资源的比值;

为在LEO卫星积压的数据包数; 为在无人机积压的数据包数; 为在卫星地球站积压的数据包数; 为LEO卫星的出口链路信道资源利用率; 为无人机的出口链路信道资源利用率; 为卫星地球站的出口链路信道资源利用率; 为t时刻子流f的发送速率; 为t时刻子流f的吞吐量; 为t时刻子流f的平均RTT; 为t时刻子流f的RTT平均偏差; 为t时刻子流f的拥塞窗口大小; 为子流f的t‑1时刻和t时刻之间的拥塞窗口变化值; 为子流f的t‑1时刻和t时刻之间的吞吐量变化值; 为子流f的最小RTT与t时刻的RTT的比值; 为t时刻子流f的损失率; 为t时刻子流f的RTT; 为子流f的t‑1时刻和t时刻之间返回的ACK的到达时间的间隔值。

4.根据权利要求3所述的基于深度强化学习的空天地网络拥塞控制方法,其特征在于步骤S3中的对决策过程的动作空间进行设置,具体包括如下步骤:设定基于发送速率控制的动作表达式,表示为

式中 为t时刻子流f所采取的动作空间表达式; 为发送速率变换值,且对应于发送速率递增值, 对应于发送速率递减值; 为t时刻子流f上发动数据包的重复因子;

根据动作表达式和当前状态,将发送速率更新动作转换为拥塞窗口更新动作,表示为式中LMTU为传输层最大传输单元的长度;

因此,在t时刻的全局动作空间at表示为

步骤S3中的对决策过程的奖励函数进行设置,具体包括如下步骤:设定子流f的奖励函数为

式中 为累积奖励值; 为用于权衡子流f和其他流之间收益的权衡系数;

表示子流f考虑单指标因素或多指标因素的效用函数;

将一个时间的全部状态‑动作序列划分为若干个相同且长度为LSAS的短序列,并估计每个短序列的累积奖励;对于从t时刻开始到t+LSAS‑1时刻结束的序列,对应的累积奖励表示为 累积奖励通过裁剪以保证取值范围为[‑1,1]。

5.根据权利要求4所述的基于深度强化学习的空天地网络拥塞控制方法,其特征在于步骤S4中的构建决策过程的状态预测模块,具体包括如下步骤:获取当前环境提供的空天地集成网络状态、网络层状态和传输层状态,通过构建的状态预测模块进行预测,得到最新的空天地集成网络状态和网络层状态;

设定地面用户能够实施获取空天地集成网络状态和网络层状态,并将获取的空天地集成网络状态和网络层状态捎带在ACK数据包协议头的空闲字段域一起传输给响应数据包的发送方;

在每个周期,每个发送端获得若干带有时间戳的空天地集成网络状态和网络层状态序列用于预测最新的空天地集成网络状态和网络层状态;

预测空天地集成网络状态和网络层状态的指标包括信道增益、使用功率与最大功率的比率、使用频带与总频带资源的比率、数据包积压量和瓶颈节点的出口链路利用率;

采用5个结构相同的基于GRU的神经网络模型,分别、单独对信道增益、使用功率与最大功率的比率、使用频带与总频带资源的比率、数据包积压量和瓶颈节点的出口链路利用率进行预测;同时,将状态的时间间隔作为特征纳入预测;空天地集成网络状态和网络层状态的真实值由LEO卫星、无人机、卫星地面站基站或地面用户在每个时隙获得。

6.根据权利要求5所述的基于深度强化学习的空天地网络拥塞控制方法,其特征在于步骤S4中的构建决策过程的奖励再分配模块,具体包括如下步骤:将动态延迟、平衡探求、公平性保障的拥塞控制问题作为序列马尔可夫决策过程,用五元组(S,A,R,P,γ)表示,其中S为全局状态空间,A为所有个体的联合动作空间,R为所有个体的奖励函数集,P为状态转移概率矩阵,γ为折扣因子;

基于二阶马尔可夫奖励再分配框架,从序列马尔可夫决策过程M中获取具有延迟奖励的序列马尔可夫决策过程 且M和 具有相同的状态空间、动作空间、状态转移概率和最优策略;

设定 为具有延迟奖励的序列马尔可夫决策过程 中 的Q值函数,表示具有延迟奖励的序列马尔可夫决策过程 中 的再分配奖励,则二阶马尔可夫奖励再分配表示为f

设定回报‑预测函数g ,用于预测一个给定的状态‑动作序列在t时刻结束时M的期望累f积奖励;回报‑预测函数g的输出为 由于 中包含 的信息,因此f f

设定差分函数Δ 并用于计算 中携带的信息;Δ 定义为 和 之间f

的数值差,则基于Δ 处理的状态‑动作序列表示为f

同时,g必须保证

由此得到:(1) 由 计算得到,并作为 的估计;(2)f f

将g(Δ0:T)和g (Δ0:t),转化为 其中, 为状态‑动作序列对预测的预期奖励的贡献,并由 计算得到;

设定 则 和 之间存在

由于 和 之间存在误差,因此设定额外的重新分配的奖励 且最终得到

7.根据权利要求6所述的基于深度强化学习的空天地网络拥塞控制方法,其特征在于奖励再分配模块的计算过程,具体包括如下步骤:对于一个状态动作序列 表示被执行前的预计回馈, 表示执行后的预计回馈, 和 之间的数值差异作为 的贡献;采用基于f

GRU的网络对g进行预测,训练过程中,将 作为输入, 作为标签,将 重新分配到每个周期,最终形成一个能够用DRL方法求解的具有延迟奖励的序列马尔可夫决策过程具体包括如下步骤:f

输入:状态‑动作序列对 回馈预测函数g ,差分函数f

Δ ,0≤t≤T,f∈F;

输出:状态‑动作序列 对预测的预期奖励的贡献A.计算

B.计算

C.计算 得到

D.计算 得到

E.返回计算结果 和

8.根据权利要求7所述的基于深度强化学习的空天地网络拥塞控制方法,其特征在于对奖励再分配模块的计算过程进行校正,具体包括如下步骤:将 的期望值用真实值表示,得到 将每个轮次划分成若干个长度为LSAS的短序列,分别返回每个短序列的累积奖励将重新分配到每个动作中;采用重分配校正方法来确保 成立;

具体包括如下步骤:

输入:回馈预测函数 累积奖励

输出:再分配奖励

a.计算

b.计算未校正的再分配奖励 其中t≠0,且

c.计算平均误差

d.计算修正后的再分配奖励 为

e.返回

9.根据权利要求8所述的基于深度强化学习的空天地网络拥塞控制方法,其特征在于步骤S4中的构建决策过程的优化策略模块,具体包括如下步骤:特征提取网络首先通过将每个周期内所有活动流的状态作为输入,输出一个特征向量由于最多涉及Lrp个轮次,因此最多产生Lrp个特征向量;全局状态序列表示为然后,将 输入到另一个表征网络中生成一个包含全局信息的全局特征向量;最后,每个智能体采用全局特征向量生成动作;采用基于GRU的神经网络作为表征网络;

每个智能体共享一个全局特征向量;行动者网络参数 用于基于当前状态输出子流f的动作概率,评论家网络参数 用于通过预测未来的奖励来更新并反馈给行动者网络;基于反馈行为,行动者网络能够不断调整未来选择动作的概率,在每次学习迭代中不断重复反馈过程以改进策略;

为了避免训练过程的波动大于设定范围且保证学习过程的平稳性,采用如下算式更新神经网络参数:式中 为剪切损失函数,用于限制策略更新的幅度; 表示所有轮次的期望值;

为新旧策略之间的比率,且 为新策略

在状态 下采取动作 的概率, 为旧策略在状态 下采取动作 的概率; 为动作在t时刻的优势函数,用来衡量t时刻的行动相对于平均行动的优势为中间函数,且ε为设定的正数;

采用广义优势估计器计算得到 表示为

式中γ为用于减少未来回报权重的折扣因子,λ为控制偏差和方差之间权衡的参数,T的周期总数, 为贝尔曼残差项且 V()为近似值函数;

总损失的计算式为

式中 为值函数损失,用于衡量在t时刻值函数与预期收益的近似情况;H为策略在每个t时刻通过阻碍确定性策略促进探索的熵函数;c1为第一权重系数;c2为第二权重系数;R表示基于GRU的神经网络;

在优化过程中,所有的对数概率序列都用于输出动作序列,以确保公平性;将与之前选择的每个动作相关联的单个对数修改为设定的值,用于防止softmax函数为对数生成选定的操作;将无效操作的对数的梯度设置为零;使用softmax函数根据修改后的对数输出动作,表示为af,j=softmax(Lf)

式中af,j为子流f的第j个动作;Lf为子流f的修正后的对数概率序列,且Lf={lf,1,...,lf,j,...,lf,J},J为子流f的能够选择的动作数;σ为设定的负数奖励;

子流f必须分别从以下两种类型的动作空间中各选择一个动作:式中 为子流f在t时刻的发送速率增量; 为负值表示导致子流f减少的发送速率, 为正值表示导致子流f增加的发送速率, 为0表示导致子流f相同的发送速率;N为数据包中的最大重复数;Δsr为发送速率的变化程度; 为子流f在t时刻的数据包重复因子;

因此,动作 由以下算式转换为 构成控制发送速率的动作空间表达式:通过奖励再分配机制,能够假设每个序列中的动作反馈将在序列结束后的LSAS时刻返回。

10.根据权利要求9所述的基于深度强化学习的空天地网络拥塞控制方法,其特征在于所述的基于深度强化学习的空天地网络拥塞控制方法,其中的训练过程包括如下步骤:输入:最大训练轮次E、训练周期长度T、算法权重λ、折扣因子γ、批量大小Nbatch;

输出:行动者网络参数 评论家网络参数 表征网络参数(1)采用随机参数初始化行动者网络参数 评论家网络参数 和表征网络参数(2)初始化重放缓冲区Bf;

(3)初始化一个Ornstein‑Uhlenbeck随机过程,用于探索性动作;

(4)在每个时刻t,收集所有流的空天地集成网络状态、网络层状态和传输层状态;

(5)采用状态预测模块预测最新的章台,得到全局状态st;

(6)通过GRU神经网络R从最近的Lrp段全局状态得到特征向量ht;

(7)根据策略函数π()得到一个动作

(8)基于动作 采用随机过程生成动作

(9)执行动作 并观测当前效用函数;

(10)存储全局状态st、特征向量ht、动作 和对应的效用函数值;

(11)计算

(12)根据效用函数值计算每个序列的累积奖励;

(13)通过奖励再分配模块的计算过程,重新分配累积奖励,得到(14)将转移过程 存储至缓冲区Bf;

(15)从重放缓冲区提取Nbatch个样本,并分割为K个批次;

(16)在每个小批次中依次执行以下步骤(17)~步骤(20);

(17)通过表征网络R获取特征向量hk为

(18)根据策略函数π()决定动作 为

(19)计算 和

(20)根据总损失 更新行动者网络参数 评论家网络参数 和表征网络参数(21)返回最终得到的行动者网络参数 评论家网络参数 和表征网络参数