1.一种基于强化学习的蜂窝移动通信系统协作式信号发送方法,其特征在于,包括以下步骤:(1)在基站发射端,每个基站首先收集本基站下用户的干扰信息和等效信道信息,并将这些信息以及上一个时刻的各个用户分配得到功率信息发送给其他基站;
(2)每个基站根据本地用户的信道信息确定各个用户的波束方向;
(3)每个基站将交互得到的信息输入强化学习神经网络中,交互的信息只包含每个用户的等效信道信息以及受到每个基站的干扰信息,神经网络经过运算后输出该基站下给每个用户分配的功率;
步骤(3)中整个神经网络的工作流程共分为两个阶段,离线训练阶段和在线决策阶段;
在在线决策阶段中,神经网络只需要在线决策网络输出动作,然后将状态转换过程存储至经验回放单元;在离线训练阶段,每一次训练从经验回放单元中采取一批数据分别输入目标决策网络和目标Q值网络中,前者输出每一个状态下采取的动作策略,后者输出每一个状态下的动作策略的价值 ;随后在线Q 值网络通过计算其输出值与yi 的差异从而计算出梯度并更新参数,在线策略网络则计算策略梯度并更新参数,并在在线决策网络做出的动作上加入噪声;
(4)每个基站就根据波束方向和功率来生成波束赋形向量,并用该波束赋形向量为发送信号做处理。
2.根据权利要求1所述的基于强化学习的蜂窝移动通信系统协作式信号发送方法,其特征在于,步骤(1)中基站的天线阵列为均匀矩形阵列,共有 个天线。
3.根据权利要求1所述的基于强化学习的蜂窝移动通信系统协作式信号发送方法,其特征在于,所述的基站到用户的信道由两部分组成:大尺度衰落和小尺度衰落。
4.根据权利要求1所述的基于强化学习的蜂窝移动通信系统协作式信号发送方法,其特征在于,步骤(3)的网络中,从第i个基站的第(x,y)根天线到第j个基站下的第k个用户的信道可以表示为 其中大尺度衰落为 ,D表示为用户到基站的物理距离,fc为工作
载波频率;当第j个基站下的用户k在基站i的扇区m范围中时,Sm(θ)≡1,其他情况下Sm(θ)≡0;P为传播多径数目,gi,j,k,p为每一条路径的小尺度衰落,假设小尺度衰落均是独立同分布的随机变量,即g~CN(0,1),其是指随机变量服从均值为0,方差为1的复高斯分布;d为天线间距离, 携带了传输路径的俯仰角和方位角信息。
5.根据权利要求4所述的基于强化学习的蜂窝移动通信系统协作式信号发送方法,其特征在于,在所述的信道情况下,第j个基站下的第k个用户接收到的信号可以表示为:;
其中右式中第一项为第j个基站下的第k个用户所需要的信号;第二项为第j个基站下给其他用户发送信号对用户k造成的干扰,也称为小区内干扰;第三项为其他基站发射的信号对第j个基站下的第k个用户造成的干扰,也称为小区间干扰;最后一项为该用户的接收机系统噪声。
6.根据权利要求1所述的基于强化学习的蜂窝移动通信系统协作式信号发送方法,其特征在于,所述的神经网络由输入层、隐藏层以及输出层构成。
7.根据权利要求6所述的基于强化学习的蜂窝移动通信系统协作式信号发送方法,其特征在于,隐藏层的激活函数为线性整流函数,其表达式为f(x)=max(0,x)。
8.根据权利要求6所述的基于强化学习的蜂窝移动通信系统协作式信号发送方法,其特征在于,输出层为了输出向量归一化,选择softmax函数,其表达式为 。