利索能及
我要发布
收藏
专利号: 2025107817100
申请人: 浙江理工大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-07-01
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种面向动态频谱共享的异构多智能体熵正则化资源分配方法,其特征在于,包括以下步骤:S1、加载基础训练器,管理后续强化学习的过程;包括环境交互、数据储存、训练循环、评估与日志记录过程;

S2、构建仿真环境,根据认知无线网络动态频谱接入环境建立数学模型,初始化参数解析,构建支持异构性动态频谱接入DSA的训练环境与评估环境,并创建智能体,进行熵正则化配置;智能体包括策略网络、评价网络和经验回放缓冲区;

S3、用随机策略生成初始经验数据并填充经验回放缓冲区,为正式训练智能体避免冲突提供基础数据,在达到预设的预热步数后返回最终状态,预热结束后,正式训练将从经验回放缓冲区采样数据更新网络;

S4、开启正式训练流程,智能体与环境交互,存储经验数据到缓冲区;定期从经验回放缓冲区采样经验数据,通过策略梯度优化策略网络,用TD误差优化评价网络,动态调整熵系数 ,同时周期性的运行测试环境,评估当前策略性能,记录频谱效率和冲突统计数据。

2.根据权利要求1所述的面向动态频谱共享的异构多智能体熵正则化资源分配方法,其特征在于:S1中的基础训练器是多智能体离线策略学习的调度中枢,用于整合环境、智能体、缓冲区三大组件,标准化训练流程,以及通过参数化配置和注册机制支持算法灵活扩展。

3.根据权利要求2所述的面向动态频谱共享的异构多智能体熵正则化资源分配方法,其特征在于:S2中仿真环境为在城市环境,考虑一种多用户认知无线通信系统,包括M个具有频谱优先使用权的主用户PU设备;P个配置传统频谱感知模块的次级用户SU设备;N个配置深度强化学习决策模块的认知SU设备;L个正交划分的无线并行信道资源;

在城市动态频谱接入场景中,无线通信网络由M个主用户和P个异构次级用户组成,次级用户分为三类节点:ALOHA协议节点:通过竞争机制接入,在预设的专用信道组中进行频谱感知,随机选择检测到的空闲信道进行传输;

TDMA协议节点:采用时分多址机制,遵循预分配的时隙‑信道组合进行无冲突的周期式传输;

基于DRL的智能节点:持续保持待传输状态,每个时隙都通过深度强化学习策略动态选择接入信道;

无线通信系统中的干扰来源于两种情形:

主次级用户同频干扰:当PU与SU同时使用相同信道时发生;

次级用户间同频冲突:多个SUs竞争同一信道资源时产生。

4.根据权利要求3所述的面向动态频谱共享的异构多智能体熵正则化资源分配方法,其特征在于,构建城市环境下无线通信系统的期望信号和干扰信号的通用路径损耗模型、信道增益模型、信噪比模型,内容如下:假设 分别表示 发射机、

接收机、 发射机和 接收机的位置坐标, 与 分别表示发射机与接收机,表示第 个认知用户,认知用户特指具备动态频谱感知能力的次级用户,其中DRL节点通过智能算法优化接入策略,其余SU采用固定协议, 表示第 个主用户;其中期望信号的链路距离通过计算,同时干扰信号传播距离由

和 所定

义,其中 ;

考虑到城市环境下的信道特性,期望信号和干扰信号的通用路径损耗模型如下:;

其中, 表示在特定环境下的基础路径损耗; 为距离相关的路径损耗系数; 为频率相关的路径损耗系数; 为载波频率;

发射端与接收端之间存在一条视距LoS路径,采用Rician信道模型来计算信道增益:;

其中,为 因子,表示 路径与散射路径的接收机信号功率的比值; 由路径损耗决定; 表示 路径上接收信号的相位,从0到1之间的均匀分布中取值;

表示一个圆对称复高斯随机变量;由于传输环境中频谱资源有限,假设所有信道带宽相同,且整段频谱被平均划分为 个信道;同时每个信道的传输功率 相同,载波频率为唯一固定值;按照以 上设定,第 个次级用户在 个信道上的信道增益定义为:;

为量化信道质量,设置信噪比和传输速率作为信道质量的评价标准,对于第 个次级用户所选的频段中,该次级用户选择了 个信道满足其带宽需求 ,同时存在着 个主用户分别占用了 个信道,也有 个信道由于若干个次级用户共同选择而发生冲突,第 个次级用户获得的信噪比定义为:;

其中, 为第 个次级用户选中频段里子信道 的增益, 为第 个主用户在子信道 的增益, 表示次级用户 与剩余的 个次级用户的各个冲突信道产生的增益, 表示认知用户 的噪声谱密度, 为认知用户 的发射功率, 为干扰当前认知用户的其他认知用户 的发射功率。

5.根据权利要求4所述的面向动态频谱共享的异构多智能体熵正则化资源分配方法,其特征在于,无线通信系统中信道资源的构成及状态如下:无线通信系统包含 个并行信道资源,子信道包括两种状态:占用状态1或空闲状态0;

按接入协议类型划分为以下三个互不重叠的频段区间:随机接入频段:由 个信道构成,采用ALOHA协议实现异步接入;该频段内各次级用户设备在任意时刻以概率 进行信道竞争接入;

时分复用频段:包含 个信道,采用时分多址协议实现同步接入;各TDMA设备在周期为的前 个时隙内进行周期性数据传输;

主用户专用频段:配置 个信道,为主用户提供专用通信服务;各PU信道状态遵循两态马尔可夫链动态演化,其状态空间定义为:状态1:信道空闲;状态0:信道占用,禁止SU接入;

马尔可夫链状态转移概率矩阵参数化为:

构建基于部分可观测马尔可夫决策过程的异构DRL节点,利用熵正则化异构多智能体行动者‑评论家算法,在以上三种频谱环境下实现接入策略的自主优化。

6.根据权利要求5所述的面向动态频谱共享的异构多智能体熵正则化资源分配方法,其特征在于,基于DRL节点,每个时隙均通过深度强化学习策略动态选择接入信道,内容如下:在每个时隙t,认知主用户SU对全部 个信道执行频谱感知以检测信道状态,同时智能体通过动态更新策略网络来获取最优接入策略,智能体的状态空间为:;

考虑到实际频谱感知存在固有缺陷,次级用户获取的信道状态观测值可能存在误差;

设第 个信道上第n个认知用户的感知结果为 ,第 个信道上第 个SU的感知错误概率为 ,信道状态转移概率为:;

由于认知用户感知设备的硬件限制,其无法感知环境中所有的 个信道;假设第 个SU的感知能力为 ,最小需求带宽为 , ,每个SU感知 个信道块,而 观测的信道块依据空闲子信道数是否满足最小需求带宽 有两种情况:满足传输需求1和不满足传输需求0; 在时隙 对 个子信道的观测结果 表示如下:;

每个认知用户均从 个信道中选择连续的 个子信道进行频谱感知,并判断聚合频段是否满足最小带宽需求 ,表示共有 个感知接入动作;智能体的动作空间表示为:;

各次级用户基于深度强化学习策略网络生成频谱接入决策,根据实时环境状态选择目标聚合信道块,对选定聚合信道块执行频谱冲突检测以及最小带宽保障校验,从而决定接入或闲置;

倘若当前SU所选信道块与已接入SU信道块的物理位置非重叠区域满足 ,则接入成功;否则,触发冲突警告;在采取一项行动后,无线通信系统获得奖励。

7.根据权利要求5所述的面向动态频谱共享的异构多智能体熵正则化资源分配方法,其特征在于,设在城市场景下,针对普通、语音、图像混合业务需求,无线通信系统提供动态信道聚合能力;无线通信系统中用户选择空闲信道进行聚合和接入,以满足传输需求,无线通信系统传输速率具体表示如下:;

其中, 表示认知用户带宽,表示信噪比损失系数, 为信噪比,而用户的奖励设定如下:a、第 个认知用户选择不接入信道,奖励 ;

b、第 个认知用户,若选择相应的信道块,基础奖励为;若该认知用户所选信道块满足使用需求且无冲突,, 与 分别代表信道选择涉及到所选协议频段

区间时的奖惩机制;若该认知用户与其他认知用户所选信道块存在冲突,有C个子信道与其他 个认知用户访问信道块重叠,总体奖励为 ;

c、第 个认知用户所选信道块已被主用户或其他协议的次级用户占用,导致无法进行传输时,奖励设置为 。

8.根据权利要求5所述的面向动态频谱共享的异构多智能体熵正则化资源分配方法,其特征在于,S2中智能体采用模块化设计,包括策略网络、评价网络,以及经验回放缓冲区;

策略网络基于HASAC算法实现,具备动作采样、对数概率计算及概率分布输出能力,用于策略探索、策略优化与策略评估;

评价网络基于双Q网络结构,对共享观测信息与联合动作输入进行价值预测;

经验回放缓冲区基于环境提供的全局状态信息构建异策略经验回放结构,用于存储多智能体与环境交互过程中的关键经验数据,包括 。

9.根据权利要求5所述的面向动态频谱共享的异构多智能体熵正则化资源分配方法,其特征在于,S3中预热阶段内容如下:将先验知识输入仿真环境,各智能体通过感知获取环境状态信息,在每一轮交互开始前,智能体获取局部观测 、整个系统的全局共享观测 、以及当前可用动作的集合 ;

在每一个预热步骤中,智能体根据随机策略中采样动作,并与环境交互,获得下一时刻的局部观测 、共享观测 、即时奖励 、终止标志 及辅助统计信息,构成经验数据;

在上一轮交互过程中得到经验数据:

其中, 而 ;得到的经验数据

被依次存入经验回放缓冲区,建立初始经验库。

10.根据权利要求5所述的面向动态频谱共享的异构多智能体熵正则化资源分配方法,其特征在于,S4中的正式训练阶段采用交互‑训练‑评估三阶段循环架构,具体包含以下步骤:SA1、环境交互与样本收集,各智能体基于局部观测空间 ,通过策略网络 生成动作,与S2中构建的环境模型交互;

SA2、经验存储,将返回值 与当前时刻的动作 、状态 、局部观测 、可用动作 ,组成完整的经验数据

存入经验缓冲区;

SA3、策略优化,每累计K条经验数据后,执行评价网络与策略网络的更新;从缓存区随机采样一批数据后,每个智能体通过策略网络计算下一个状态下的动作 和对应的对数概率,用于计算目标值;目标值的计算方式如下:;

是当前时间步的奖励,是折扣因子,是控制策略熵项权重的一个超参数;

开始训练评价网络时,通过损失函数最小化预测值与目标值的差距:;

是目标Q值,B为批次大小, 是Huber损失函数;

最后计算损失的梯度,并使用优化器更新评价网络的参数;

是评价网络的参数,是学习率, 是损失函数关于网络参数的梯度;

策略网络的更新基于最大熵目标:

每个代理根据当前观测 采样动作 ,并计算该动作的对数概率,随后,按随机顺序训练每个代理,在训练过程中利用当前评价网络对状态 ‑动作 对的Q值进行估计;

策略损失函数由两个部分组成:策略下的Q值期望;熵正则项;

在计算损失后,通过反向传播更新策略网络参数,从而优化策略;最后,通过软更新机制更新目标网络,使其参数缓慢逼近目标网络的参数;

SA4、周期性评估,在每完成M个训练周期后,系统执行以下标准化评估操作:暂停策略网络与评价网络的参数更新,在与训练环境隔离的测试环境中执行T个完整回合;记录相应指标并计算统计量,呈现当前的训练效果。