1.一种基于异构智能体近端策略优化的动态频谱接入方法,其特征在于,包括以下步骤:S1、针对具备异构性状态空间和动作空间的动态频谱接入环境建立计算模型,并初始化参数,包括次级用户数量N、各次级用户感知信道数G、整个网络系统信道数量L、各次用户感知长度以及带宽要求,然后构建频谱环境;
S2、根据S1的计算模型生成动态频谱接入优化策略;
S3、动态频谱接入环境各用户状态空间、各认知用户通过状态感知模块感知频谱环境,并引入奖励机制;
S4、基于异构智能体近端策略优化构建自适应动态频谱接入智能体与聚合智能体,创建策略网络、价值网络以及各自对应目标网络;智能体与环境交互进行训练,环境进入新的状态反馈奖励给智能体,获得可继承的参数化动态频谱接入策略,具体为:步骤一、将每个认知用户 视为异构智能体,然后初始化策略网络 和全局价值网络,同时初始化经验回放池 ;
步骤二、通过训练学习潜在的更优策略,获得一组策略 ,根据动作策略结合当前状态 获得动作向量,动作中包括聚合频段的选择以及聚合长度的选择;执行动作 获得当前时刻奖励 和下一时刻状态向量 , 将保存入 ,从经验回放池中随机抽样,获得小批量样本;
步骤三、使用GAE函数计算基于全局V值网络的优势函数 ,绘制得到代理的随机排列;
步骤四、实验中令 ,对于各个代理从 ,通过以下公式更新网络参数 :
;
其中, 表示第 个智能体; 表示batch size, 表示每个批次的长度,表示状态 和 的联合优势函数, 表示第 个智能体, 表示当前策略,表示更新前的策略,表示给定, 表示当前观测 的情况下采取动作 的概率;
并通过以下公式更新V值网络:
;
步骤五、重复步骤二至步骤四进行训练直到训练结束;
S5、根据S4获得的参数化动态频谱接入策略进行动态频谱接入。
2.根据权利要求1所述的基于异构智能体近端策略优化的动态频谱接入方法,其特征在于,S1中建立计算模型的具体为:根据动态频谱接入环境中的特征参数,将任务环境中认知用户状态空间、动作空间、吞吐量计算和干扰表达建立成数学模型。
3.根据权利要求1所述的基于异构智能体近端策略优化的动态频谱接入方法,其特征在于:动态频谱接入包括具备异质型的状态空间、动作空间以及不同的感知聚合。
4.根据权利要求3所述的基于异构智能体近端策略优化的动态频谱接入方法,其特征在于,状态空间具体为:在每个时隙 ,代理均会更新代理行动网络,用于获得最优策略;每个认知用户SU对所有信道进行频谱感知,以检测每个时隙的信道状态:;
表示用户 在时隙 的信道状态;将第 个信道上第 个SU的感知错误概率为 ,信道状态转移概率为;
由于认知用户SU感知设备的硬件限制,其无法感知环境中所有的子信道L;假设第 个SU的感知能力为 ,表示感知长度,且 ,那么每个SU感知 个信道块,子信道有两种状态:被SU占用状态或空闲状态,而SU观测到信道块依据子信道数量是否满足带宽要求也有两种情况:信道块满足传输需求和不满足传输需求; 在时隙 对 个子信道的观测结果 表示如下:;
其中, 表示第 个认知用户。
5.根据权利要求3所述的基于异构智能体近端策略优化的动态频谱接入方法,其特征在于,动作空间具体为:在获得时隙 的观测结果后,SU选择在时隙 感知信道块,SU的感知长度为 的连续信道块,其动作空间表示为;
每个SU从中选择连续的 个子信道进行感知,并判断聚合频段是否满足带宽的要求,这表示有 个感知接入动作。
6.根据权利要求1所述的基于异构智能体近端策略优化的动态频谱接入方法,其特征在于,S3中的奖励机制具体为:在执行频谱感知和聚合后,每个SU决定接入或闲置,在采取一项行动后,系统获得即时奖励,当系统受到SU或PU干扰时,设置惩罚项 ;假设在室内环境中,次级用户在一些子信道当中会受到主用户PU的干扰,且假定系统中用户选择空闲信道进行聚合和接入,系统传输速率具体表示如下:;
其中, 表示认知用户带宽,表示信噪比损失系数, 为信噪比,而用户的奖励设定如下:a、第 个次用户选择不接入信道,奖励 ;
b、对于第 个次用户,所选择的信道块独立使用,或与其他次用户共享部分判断,会有C个子 信 道与 其 他 个 次 用户 访问 信 道块 重 叠,总 体奖 励 为, 表示第 个次用户的带宽要求;
c、当 个次用户接入已经被主用户占用的信道而无法进行传输时,则奖励设置为。
7.根据权利要求1所述的基于异构智能体近端策略优化的动态频谱接入方法,其特征在于,S4中构建的自适应动态频谱接入智能体具体为:假设 分别表示 发射机、
接收机、 发射机和 接收机的位置坐标, 与 分别表示发射机与接收机,表示第 个认知用户, 表示第 个主用户;其中 通过计算期望信号的链路距离,同时干扰信号传播距
离是由 所定义;当主用户和次用户或若干个次用
户同时使用相同的无线信道时,才会干扰传输,无线信号在发射器和接收机之间的空间传播时会发生衰减,称为路径损耗;采用室内路径损耗模型:;
信道增益公式表示为:
;
其中, 由路径损耗决定,为 因子,表示 路径与散射路径的接收机信号功率的比值,且 =5, 是 路径上到达信号的相位,从0到1之间的均匀分布中取值, 表示一个圆对称复高斯随机变量;由于室内传输环境中频谱有限性,假设每个信道带宽相同,整段频谱被平均分配为 个信道;同时每个信道的传输功率 相同,载波频率唯一固定;按照以上设定,第 个次级用户在 个信道上的信道增益定义为:;设置了信噪比和传输速率作为信道质量的评价标准,对于第 个次级用户所选的频段中,该次级用户选择了 个信道满足其带宽需求 ,同时存在着 个主要用户分别占用了 个信道,或有 个信道由于若干个次级用户共同选择而发生冲突,第 个次级用户获得的信噪比定义为:;
其中, 为第 个次用户选中频段里子信道 的增益, 为第 个主用户在子信道的增益, 表示次用户 与剩余的 个次用户的各个冲突信道产生的增益, 表示认知用户 的噪声谱密度, 为认知用户 的发射功率, 为干扰当前认知用户的其他认知用户 的发射功率。