1.一种基于注意力机制与回声状态网络的动态频谱接入方法,其特征在于,包括以下步骤:步骤1、构建6G天地一体网络系统模型;
步骤2、定义6G天地一体网络系统模型中次用户SU的观测状态空间为主用户PU活动状态的马尔可夫过程,动作空间为信道选择或等待决策;
步骤3、在DDQN框架中引入Bahdanau注意力机制,动态聚焦输入数据的关键特征,同时结合ESN的短期记忆特性,构建具有时序建模能力的混合架构;
步骤4、设计兼顾频谱效率与PU保护的奖励函数,并通过加权多指标模型评估网络QoS;
步骤5、基于马尔可夫状态空间与动作空间,通过混合架构处理动态频谱特征,结合奖励函数与QoS评估机制,采用离线‑在线两阶段优化策略,完成天地一体网络环境下的自主动态频谱接入。
2.根据权利要求1所述的基于注意力机制与回声状态网络的动态频谱接入方法,其特征在于,所述6G天地一体网络系统模型,包含N个主用户PU和M个次用户SU的分布式DSA场景,其中每个PU独占一个无线信道,SU作为自主智能体通过感知信道状态动态调整接入策略;
所述6G天地一体网络系统模型的三维网络拓扑模型,包含低轨卫星节点、地面基站和移动终端的三层异构架构。
3.根据权利要求2所述的基于注意力机制与回声状态网络的动态频谱接入方法,其特征在于,所述步骤3具体实现过程如下:Bahdanau注意力机制通过三层结构处理输入观测值:首先将频谱特征 表示经线性变换和tanh函数激活得到隐藏表示 ;随后通过评分函数 计算特征重要性,并利用softmax函数生成注意力权重 ;增强状态 为频谱特征与对应注意力权重乘积,并通过残差连接保留原始信息;
增强状态输入双回声状态网络,得到隐藏表示 ,作为DDQN框架下的输入数据。
4.根据权利要求3所述的基于注意力机制与回声状态网络的动态频谱接入方法,其特征在于,步骤4中所述奖励函数按SU行为分四种情况设计:成功接入时奖励与信道容量对数成正比: ,其中, 表示次用户k在时间t选择信道c时的信干燥比SINR;SU之间碰撞时施加与干扰水平相关的惩罚 ,函数 采用X对数形式将干扰值映射至区间 内;PU与SU碰撞时固定惩罚为 ;未选择信道时奖励为0。
5.根据权利要求4所述的基于注意力机制与回声状态网络的动态频谱接入方法,其特征在于,步骤4中,所述QoS通过加权组合多个性能指标实现,表达式为,其中各分量均经
过归一化处理; 表示SU归一化后的平均接入成功率; 和 分别表示与PU和SU归一化后的平均碰撞率; 表示归一化后的平均吞吐量; 表示奖励的归一化值,权重系数满足 。
6.根据权利要求5所述的基于注意力机制与回声状态网络的动态频谱接入方法,其特征在于,所述步骤5具体实现过程如下:训练过程采用深度强化学习的优化策略,经验回放缓冲区 用于存储转移样本,其中 表示状态,表示动作,表示即时奖励, 是下一状态;探索率 采用线性衰减策略;通过Q函数 评估各动作价值,选择最优信道接入动作,其中 表示网络参数。