1.一种高额奖励惩罚的竞争深度Q网络功率控制方法,其特征在于,包括以下步骤:S1:辅助基站收集主用户和次用户的通信信息,并将获得的信息传输给次用户;
在t时刻,次用户k在状态sk(t)下选择某个动作,此时次用户将进入sk(t)的下一个状态;
S2:将次用户在每个时隙选择的发射功率设置为动作值,构建动作空间;
将次用户在每个时隙选择的发射功率设置为动作值,每个次用户的发射功率为离散化n的值,且每个次用户选择H种不同的发射值,所以共有H 种可选择动作空间,动作空间定义为:A(t)=[P1(t),P2(t),...,Pn(t)]
其中,P表示发射功率;
S3:构建高额奖励惩罚的分级奖励函数;
S4:构建功率控制策略;
所述步骤S1的具体过程是:
由于主用户和次用户为非合作的关系,次用户以下垫式接入主用户信道,主次用户均不可获知双方的功率发射策略,在信号传输过程中,辅助基站发挥着重要作用,它负责收集主用户和次用户的通信信息,并将获得的信息传输给次用户,假设环境中有X个辅助基站,则状态值为:S(t)=[s1(t),s2(t),...,sk(t),...,sx(t)]其中,第K个辅助基站接收的信号强度,定义为:
式中,m表示主用户的个数,n表示次用户的个数;i表示第i个主用户,j表示第j个次用户;lik(t)、ljk(t)分别表示t时刻辅助基站与主、次用户之间的距离,l0(t)表示基准距离,τ表示路径损耗指数,σ(t)表示系统的平均噪声功率。
2.根据权利要求1所述的高额奖励惩罚的竞争深度Q网络功率控制方法,其特征在于,步骤S3中,设计四项指标来评判次用户频谱接入的成功等级,指标定义如下:其中,符号 表示任意,符号 表示存在,符号∑表示求和;Pi表示接入信道的第i个主用户发射功率,Pj表示第j个次用户发射功率;γi表示主用户的信噪比,γj表示次用户的信噪比; 和 分别表示任意主用户和任意次用户的信噪比,μi和μj分别表示主用户和次用户预设的阈值, 和∑Pj分别表示任意接入信道的主用户功率、次用户发射功率之和。
3.根据权利要求2所述的高额奖励惩罚的竞争深度Q网络功率控制方法,其特征在于,步骤S3中,把任意主用户的信噪比是否都大于预设阈值定义为判断功率控制是否成功最先决的条件,若任意主用户的信噪比并非都大于预设阈值,则可直接判定频谱接入完全失败CF;若任意主用户的信噪比都大于预设阈值,但不存在次用户的信噪比高于预设阈值,则把这种情况称之为次级接入失败SF;若任意主用户的信噪比都大于预设阈值,任意次用户的信噪比也均大于预设阈值,并且所有接入信道的主用户发射功率都大于次用户发射功率之和,则将这种接入方式称之为完全接入成功CS;在完全接入成功的条件中,若仅有部分次用户信噪比高于预设阈值,其余条件不变,则将这种接入方式称之为次级接入成功SS,具体公式表达如下:根据以上分级条件,定义奖励函数为:
上式中,参数a1、a2、a3和a4均为常数,a1>10a2,a3>10a4,把奖励函数按照频谱接入成功情况进行等级划分,将次用户完全接入成功给予高额奖励,将次用户完全接入失败给予高额惩罚,使得系统更快探索出成功接入策略。
4.根据权利要求3所述的高额奖励惩罚的竞争深度Q网络功率控制方法,其特征在于,步骤S4中,定义主用户按照以下策略进行功率发射,功率控制策略如下:该策略下主用户在每个时间点t采用逐步更新的方式控制发送功率。
5.根据权利要求4所述的高额奖励惩罚的竞争深度Q网络功率控制方法,其特征在于,当t时刻主用户i的信噪比γi(t)≤μi且主用户i预测t+1时刻信噪比γ′i(t)≥μi时,主用户增加发射功率;当t时刻主用户i的信噪比γi(t)≥μi且主用户i预测t+1时刻信噪比γ′i(t)≥μi时,主用户减小发射功率;其他情况下保持当前发射功率不变;主用户i预测t+1时刻信噪比为:其中,h表示信道增益,N表示环境噪声;hii和hjj分别表示第i个主用户、第j个次用户的信道增益,Ni(t)和Nj(t)分别表示第i个主用户和第j个次用户接收到的环境噪声。
6.根据权利要求5所述的高额奖励惩罚的竞争深度Q网络功率控制方法,其特征在于,次用户通过下垫式接入到主用户的信道,并且为了不影响主用户的正常通信,次用户在进行功率发射时往往有着严格的要求;要避免对主用户正常通信产生影响,需要次用户把从辅助基站那里收集到的数据信息进行不断学习,然后以合适的发射功率完成通信传输任务;信噪比是衡量链路质量的重要指标,定义第i个主用户的信噪比为:定义第j个次用户的信噪比为:
其中hii和hjj分别表示第i个主用户、第j个次用户的信道增益,Pi(t)、Pj(t)和Pk(t)分别表示t时刻第i个主用户、第j个次用户和第k个次用户的发射功率,hij(t)、hji(t)、hkj(t)分别表示第i个主用户与第j个次用户、第j个次用户与第i个主用户、第k个次用户与第j个次用户之间的信道增益,Ni(t)和Nj(t)分别表示第i个主用户和第j个次用户接收到的环境噪声。
7.根据权利要求6所述的高额奖励惩罚的竞争深度Q网络功率控制方法,其特征在于,信道增益和发射功率等是动态变化的,根据香农定理,定义第j个次用户吞吐量与信噪比之间的关系为:Tj(t)=Wlog2(1+γj(t))
其中,W表示信号带宽,在该动态变化的系统中,要保证系统的功率分配效果最佳,既要满足主用户的信噪比高于预设阈值,还要保证次用户能够通过不断学习来调整自身发射功率,从而让整个系统中次用户的总吞吐量最大化。