买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于熵驱动步长自适应的扩散强化学习信道接入方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于熵驱动步长自适应的扩散强化学习信道接入方法

面议

专利号： 2026100072854

申请人：南京信息工程大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-06-16

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于熵驱动步长自适应的扩散强化学习信道接入方法，其特征在于，针对包括空中基站、地面边缘聚合服务器、地面用户的应急通信系统，执行如下步骤S1‑步骤S4，完成非平稳应急通信的信道系统接入优化：步骤S1：采用二元变量形式表示信道状态，以表征空中基站与地面边缘聚合服务器之间各信道中数据包传输成功或失败，基于宏观环境状态，建立信道状态转移概率矩阵，表征当前时隙各信道状态及信道状态的转移概率；

步骤S2：对各信道进行分组，并预设对应的权重概率分布，从当前宏观环境状态对应的各信道分组中，根据权重概率分布，随机选择一个信道分组进行激活；

步骤S3：建立平衡决策性能与计算效率的信道选择策略，并构建信道选择策略的目标函数；

步骤S3的具体方法如下：

以长期平均丢包率与平均推理时延为性能指标，在信道选择策略下将信道接入控制问题表述如下式，其中表示各时隙的信道选择策略：；

其中，表示在信道选择策略下的长期平均丢包率，表示在信道选择策略下的平均推理时延，为长期平均丢包率与平均推理时延之间的权衡系数，为在策略下的综合代价函数，表示在不同信道选择策略中使该综合代价函数最小的优化目标；两项性能指标的计算如下式：；

；

其中，表示用于统计的时隙总数，表示时隙t是否发生丢包，发生丢包时取

1，否则取0；表示时隙t的推理时间；

步骤S4：在空中基站侧部署LADSAC模型并与现有ARQ协议栈对接，每个时隙中LADSAC模型依次进行观测采集、环境感知、步数决策、扩散去噪、动作下发、结果回执与学习更新，完成LADSAC模型的训练和更新，应用LADSAC模型，完成非平稳应急通信的信道接入优化。

2.根据权利要求1所述的一种基于熵驱动步长自适应的扩散强化学习信道接入方法，其特征在于，步骤S1的具体方法如下：在任意时隙t，第n个信道的信道状态由二元变量表示，其中表示信道中数据包传输失败，记为Bad状态，表示信道中数据包传输成功，记为Good状态；

所有信道状态的生成概率由时隙t的宏观环境状态控制，其中表示低干扰模式，表示高干扰模式，建立信道状态转移概率矩阵如下式：；

其中，，表示在当前宏观环境状态为时，下一时隙转移到宏观环境状态的条件概率，对任意给定的满足，表示时刻t+

1的宏观环境状态，表示概率。

3.根据权利要求2所述的一种基于熵驱动步长自适应的扩散强化学习信道接入方法，其特征在于，步骤S2的具体方法如下：针对每个宏观环境状态，都预设个信道分组以及一个对应的权重概率分布；将各信道分组构成的集合定义为，其中每个信道分组都是总信道集C的一个子集；在任意时隙t，从与当前宏观环境状态对应的信道分组集中，根据权重概率分布随机选择一个信道分组作为激活信道组，记为；激活信道组决定了信道n的信道状态为Good状态的条件概率，具体如下：；

其中，表示信道n属于时，信道状态为Good的条件概率，表示信道n属于时，信道状态为Good的条件概率值，表示信道n不属于时的条件概率值，且和满足。

4.根据权利要求3所述的一种基于熵驱动步长自适应的扩散强化学习信道接入方法，其特征在于，步骤S4的具体步骤如下：步骤S4.1：将状态定义为，其中为空中基站的缓存区数据包数量；

为队首数据包重传次数；为宏观环境状态；表示可用信道集合，，其中表示各信道的可用性向量，N为信道总数；

步骤S4.2：将动作空间定义为，定义时隙t的动作为，当时，以表示选择第n个信道；表示空闲，N为信道总数；

步骤S4.3：将观测空间定义为，定义时隙t+1的观测为，以表示传输成功，表示传输失败；

步骤S4.4：设置观测函数，观测函数表示在给定上一时隙状态和动作的条件下，于当前时隙t获得观测的概率分布；对于执行动作的情形，由信道状态与固定错误率决定：；

；

其中，表示在时隙信道的真实状态为1时，在时隙中观测结果为1的条件概率；表示在时隙信道的真实状态为0时，观测结果仍为1的条件概率；

构造长度为W的历史动作‑观测序列，并基于历史动作‑观测序列进行状态估计：；

步骤S4.5：设置瞬时奖励函数如下式：；

其中，表示成功传输，表示丢包；、分别为奖励与惩罚系数，；

步骤S4.6：采用两层MLP的轻量化环境感知网络，以为输入，输出宏观环境状态的后验分布，并计算信息熵：；