1.一种蜂窝通信系统的波束选择方法,所述蜂窝通信系统终具有M个蜂窝,每个蜂窝中心处有一个多天线基站采用波束成形技术为蜂窝内的一个单天线移动台提供下行数据传输,即每个蜂窝内都具有一个多输入单输出系统;其特征在于,所述波束选择方法包括:设置系统中的帧结构:在每一帧的头部,为基站与其相邻基站的交互信息,以及基站选择波束成形矢量,在该帧剩余的部分,为需要传输的数据;
所述基站选择波束成形矢量的方法为基于深度强化学习的方法,具体包括:
1)状态参数设置:在第t帧中,基站BSk的状态包括基站本地信息、干扰者信息和被干扰者信息,所述干扰者信息和被干扰者信息为通过基站与相邻基站的交互信息;
基站本地信息包括:第t-1帧的发射功率 第t-1帧的码字 第t帧信道状态信息实虚部 第t-1帧链路k的频谱效率 第t-1帧选择动作前的等效信道增益 第t帧选择动作前的等效信道增益 第t帧选择动作前移动台接收到的干扰加噪声能量 第t-1帧选择动作前移
动台接收到的干扰加噪声能量
干扰者信息包括:
a)第t帧选择动作前的干扰者信息:干扰者标号j,第t帧选择动作前移动台MSk接收到的来自干扰者j的信号能量 干扰者j第t-1帧内采用的码字 链路j第t-
1帧内的频谱效率 其中 表示链路k在第t帧内选择动作之前的对链路k干扰最大的前n个干扰者组成的集合;
b)第t-1帧选择动作前的干扰者信息:干扰者标号j',第t-1帧选择动作前移动台MSk接收到的来自干扰者j'的信号能量 干扰者j'第t-2帧内采用的码字链路j'第t-2帧内的频谱效率 其中 表示链路k在第t-1帧内选择动作之前的对链路k干扰最大的前n个干扰者组成的集合;
被干扰者信息包括:第t-1帧选择动作后基站BSk到被干扰移动台MSj的等效信道增益被干扰者j第t-1帧内的频谱效率 第t-1帧选择动作后移动台MSj接收到的来自干扰者k的信号能量在移动台MSj接收到的干扰加噪声能量中的占比其中 表示链路k在第t-1帧内选择动作后的受链路k干扰最大的前n个被干扰者组成的集合;
2)以最大化蜂窝通信系统中所有移动台的和速率为目的,建立选择波束成形矢量的模型为:其中, 表示基站的发射功率,将其取值范围[0,pmax]离散成Q1个取值,即可选功率值为 是一个模为1的向量,也称为码字;
从模型得知,在第t帧中,基站需要选择一个组合 确定波束成形矢量,因此,将动作空间设置为 其中是码 本 ,用Q 2个 码字 组成 的码 本来 覆盖 二维 平面 上的 各 个方向 ,即动作空间大小为Q1×Q2;
3)奖励函数设置:奖励函数由两部分构成,第一部分是基站采取波束成形矢量决策之后移动台吞吐率,作为奖励函数中的奖励项;第二部分是由于基站采取波束成形矢量决策导致链路k干扰其他链路造成的其他链路的性能损失,作为奖励函数中的惩罚项;
奖励函数为:
选择波束成形矢量的方法为:在第t帧中,基站在帧开头通过信息交互观测得到自身的状态参数 并根据ε-贪婪策略做出波束成形矢量决策进行第t帧的数据传输;然后在第t+1帧中,基站BSk通过与蜂窝通信系统的交互获得奖励 以及t+1帧状态 并将经验数据 存储到存储器 中,并随机地对 中的经验数据进行小片采样以训练深度网络,ε-贪婪策略是指以ε概率采取随机决策,以1-ε概率根据深度网络获得的结果采取决策,选择波束成形矢量。