利索能及
我要发布
收藏
专利号: 2026100072854
申请人: 南京信息工程大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于熵驱动步长自适应的扩散强化学习信道接入方法,其特征在于,针对包括空中基站、地面边缘聚合服务器、地面用户的应急通信系统,执行如下步骤S1‑步骤S4,完成非平稳应急通信的信道系统接入优化:步骤S1:采用二元变量形式表示信道状态,以表征空中基站与地面边缘聚合服务器之间各信道中数据包传输成功或失败,基于宏观环境状态,建立信道状态转移概率矩阵,表征当前时隙各信道状态及信道状态的转移概率;

步骤S2:对各信道进行分组,并预设对应的权重概率分布,从当前宏观环境状态对应的各信道分组中,根据权重概率分布,随机选择一个信道分组进行激活;

步骤S3:建立平衡决策性能与计算效率的信道选择策略,并构建信道选择策略的目标函数;

步骤S3的具体方法如下:

以长期平均丢包率与平均推理时延为性能指标,在信道选择策略下将信道接入控制问题表述如下式,其中 表示各时隙的信道选择策略:;

其中, 表示在信道选择策略 下的长期平均丢包率, 表示在信道选择策略下的平均推理时延, 为长期平均丢包率与平均推理时延之间的权衡系数,为在策略 下的综合代价函数, 表示在不同信道选择策略中使该综合代价函数最小的优化目标;两项性能指标的计算如下式:;

其中,表示用于统计的时隙总数, 表示时隙t是否发生丢包,发生丢包时取

1,否则取0; 表示时隙t的推理时间;

步骤S4:在空中基站侧部署LADSAC模型并与现有ARQ协议栈对接,每个时隙中LADSAC模型依次进行观测采集、环境感知、步数决策、扩散去噪、动作下发、结果回执与学习更新,完成LADSAC模型的训练和更新,应用LADSAC模型,完成非平稳应急通信的信道接入优化。

2.根据权利要求1所述的一种基于熵驱动步长自适应的扩散强化学习信道接入方法,其特征在于,步骤S1的具体方法如下:在任意时隙t,第n个信道的信道状态由二元变量 表示,其中 表示信道中数据包传输失败,记为Bad状态, 表示信道中数据包传输成功,记为Good状态;

所有信道状态的生成概率由时隙t的宏观环境状态 控制,其中 表示低干扰模式, 表示高干扰模式,建立信道状态转移概率矩阵 如下式:;

其中, ,表示在当前宏观环境状态为 时,下一时隙转移到宏观环境状态 的条件概率,对任意给定的 满足 , 表示时刻t+

1的宏观环境状态, 表示概率。

3.根据权利要求2所述的一种基于熵驱动步长自适应的扩散强化学习信道接入方法,其特征在于,步骤S2的具体方法如下:针对每个宏观环境状态 ,都预设 个信道分组以及一个对应的权重概率分布 ;将各信道分组构成的集合定义为 ,其中每个信道分组 都是总信道集C的一个子集;在任意时隙t,从与当前宏观环境状态 对应的信道分组集 中,根据权重概率分布 随机选择一个信道分组作为激活信道组,记为 ;激活信道组决定了信道n的信道状态 为Good状态的条件概率,具体如下:;

其中, 表示信道n属于 时,信道状态为Good的条件概率,表示信道n属于 时,信道状态为Good的条件概率值,表示信道n不属于 时的条件概率值,且 和 满足 。

4.根据权利要求3所述的一种基于熵驱动步长自适应的扩散强化学习信道接入方法,其特征在于,步骤S4的具体步骤如下:步骤S4.1:将状态定义为 ,其中 为空中基站的缓存区数据包数量;

为队首数据包重传次数; 为宏观环境状态; 表示可用信道集合,,其中 表示各信道的可用性向量,N为信道总数;

步骤S4.2:将动作空间定义为 ,定义时隙t的动作为 ,当时,以 表示选择第n个信道; 表示空闲,N为信道总数;

步骤S4.3:将观测空间定义为 ,定义时隙t+1的观测为 ,以 表示传输成功, 表示传输失败;

步骤S4.4:设置观测函数,观测函数 表示在给定上一时隙状态 和动作 的条件下,于当前时隙t获得观测 的概率分布;对于执行动作 的情形,由信道状态 与固定错误率 决定:;

其中, 表示在时隙 信道 的真实状态为1时,在时隙 中观测结果 为1的条件概率; 表示在时隙 信道 的真实状态为0时,观测结果 仍为1的条件概率;

构造长度为W的历史动作‑观测序列 ,并基于历史动作‑观测序列 进行状态估计:;

步骤S4.5:设置瞬时奖励函数 如下式:;

其中, 表示成功传输, 表示丢包; 、 分别为奖励与惩罚系数,;

步骤S4.6:采用两层MLP的轻量化环境感知网络 ,以 为输入,输出宏观环境状态的后验分布 ,并计算信息熵 :;

其中, , ,且 ,表示在时隙 的历史动作–观测序列 时,宏观环境状态 处于状态 的后验概率;

对信息熵进行指数滑动平均:

其中, 为信息熵 的指数滑动平均估计, 为平滑因子;初值取 ;

步骤S4.7:根据指数滑动平均估计后的信息熵设定扩散反向去噪步数,其中:;

其中, 、 分别为熵阈值下界、上界, ; 、 分别为去噪步数下限、上限,; 为连续步数;

执行量化与截断,具体如下式:

其中, 表示就近取整, 为量化后的整数步数;

引入滞回带,具体如下式:

在上式满足时令 ;其中, 为滞回带半宽,当 时保持不变,以抑制抖动; 为上一时隙量化后的整数步数;

步骤S4.8:将 与原始状态拼接形成增广状态 :;

其中, 为宏观环境状态 的后验分布向量;表示原始的状态,增广状态作为扩散策略网络输入;由扩散策略网络 在连续步数 去噪下生成动作 ;

由扩散策略网络 在连续步数 去噪下生成动作 ;若 ,则直接输出空闲动作并跳过去噪计算;否则在 步反向去噪下生成动作;为保证同一时隙内结果可复现,反向去噪采用固定种子初始化的伪随机数序列;

步骤S4.9:采用双评论家网络 、 对增广状态–动作对 进行价值评估,并由目标评论家网络生成时序差分目标;交互得到的回放样本以 的形式写入回放存储,表示瞬时奖励函数的值;

主网络参数通过梯度下降进行联合更新:;

其中,、、分别为策略网络、评论家网络和环境感知网络的参数向量,其在训练过程中第 次迭代时的取值分别记为 、 、 ; 为学习率;为联合损失; 表示损失函数 对参数 、、的联合梯度向量;

对目标网络进行软更新:

其中, 为软更新系数; 、 、 分别为目标评论家网络、目标策略网络和目标环境感知网络的参数向量,其在训练过程中第 次迭代时的取值分别记为 、 、 ; 、、 为对应的主网络参数;

步骤S4.10:以回放样本构建联合损失 :;

其中, 为扩散损失, 为评论家损失, 为感知交叉熵损失, 为权衡系数;采用学习率 的梯度下降联合更新参数 、、。

5.根据权利要求4所述的一种基于熵驱动步长自适应的扩散强化学习信道接入方法,其特征在于,步骤S4.6中,为避免对数在0或1处的数值奇异,对宏观环境状态的后验分布先进行夹取,具体如下式:;

其中, 为将后验概率 截断到区间 后得到的值; 为阈值常数;

定义以2为底的瞬时熵 ,具体如下式:;

其中, 为时隙 的瞬时熵,由经过截断处理的后验概率 计算得到;

对瞬时熵 进行指数滑动平均:

其中, 为瞬时熵 的指数滑动平均估计, 为平滑因子,用于控制历史熵与当前瞬时熵的权重,初值取 。

6.根据权利要求5所述的一种基于熵驱动步长自适应的扩散强化学习信道接入方法,其特征在于,步骤S4中,对每个时隙t的推理时间施加约束 ;

当 时,则判定为超时,执行降级,具体如下式:;

其中, 为时隙t的推理时间, 为允许的最大推理时延; 为量化后的整数步数,为步数下限;

完成降级后,跳过时隙t的双评论家网络更新;若出现连续M次超时,则在下一时隙切换为保守策略,具体如下式:;

其中, 为信道n的经验成功率, 表示经验最优信道。

7.根据权利要求6所述的一种基于熵驱动步长自适应的扩散强化学习信道接入方法,其特征在于,完成降级后,若出现连续M次超时,则在下一时隙切换的保守策略为 ,表示选择的动作 为空闲。