1.一种D2D通信系统接入频谱的方法,所述D2D通信系统具有M个D2D通信设备及N个信道,每个D2D通信设备由一个发送端Tx和一个接收端Rx组成,宏蜂窝基站MBS作为协调者帮助D2D通信设备间的同步和传递反馈信息,其特征在于,所述接入频谱的方法为:设定目标为找出一种信道选择和功率控制方案使D2D通信系统的总容量最大化,建立目标模型为:
其中, 表示第m个D2D通信设备在第t个帧获得速率, 和分别表示在第t个帧时所有D2D通信设备的信道选择向量和发送功率向量, 表示每个D2D通信设备的发送端的最大发送功率, 和 分别表示所有D2D通信设备的集合以及所有信道的集合,
表示第m个D2D通信设备在第t个帧选择的信道, 是信道选择变量,若第m个D2D通信设备在第t个帧选择信道n,则 否则 表示第m个D2D通信设备在第t个2
帧选择的发送功率,σ是加性高斯白噪声, 表示第t帧时第m个D2D通信设备的发送端到第k个D2D通信设备的接收端在信道 上的信道响应,其中,βm,k是仅与距离有关的路径损耗, 是符合Jake’s信道模型的小尺度衰落,相邻帧小尺度衰落的变化表述为 其中,δ和 在第0帧的初始值 都是服从复高斯分布 的随机变量,而ρ表示信道相关系数,j≠m;
基于目标模型,采用深度强化学习让每个D2D通信设备根据历史和局部信息来动态调整接入频谱,具体为:
将D2D通信系统的帧结构设计为包括预处理阶段和发送阶段,在预处理阶段D2D通信设备通过信息反馈即发送反馈信息至相邻D2D通信设备或者接收相邻D2D通信设备的反馈信息、干扰测量、发送‑接收端信道估计获取状态数据,通过深度强化学习选择一个频谱接入策略,包括信道和发送功率;D2D通信设备的发送端在发送阶段以在选择的信道和发送功率进行信息传输;深度强化学习的实现方式为:状态数据:在第t个帧,D2D通信设备的状态包括:第t‑1个帧及第t‑2个帧的功率、信道、速率信息;第t个帧及第t‑1个帧的发送‑接收端信道估计值;第t个帧及第t‑1个帧干扰测量值,因此,将第m个D2D通信设备在第t个帧获得的系统状态设计为其中,
表示第m个D2D通信设备在第t‑1个帧选择的发送功率, 表示第m个D2D通信设备在第t‑2个帧选择的发送功率, 表示第m个D2D通信设备在第t‑1个帧选择的信道,表示第m个D2D通信设备在第t‑2个帧选择的信道, 表示第m个D2D通信设备在第t‑1个帧获得速率, 表示第m个D2D通信设备在第t‑2个帧获得速率, 表示第m个D2D通信设备在第t个帧所测量到的总干扰, 表示第m个D2D通信设备在第t‑1个帧所测量到的总干扰; 表示第m个D2D通信设备在第t个帧所测量到本地CSI向量, 表示第m个D2D通信设备在第t‑1个帧所测量到本地CSI向量, 表示第t帧时第m个D2D通信设备的发送端到第m个D2D通信设备的接收端在信道n上的信道响应;
动作空间:在每一个帧的预处理阶段,每个D2D通信设备需要选择一个信道和发送功率,动作空间设计为 其中L是功率的离散数量;
奖励:由于该系统的目标是为了提高D2D通信系统的总容量,每个D2D通信设备既要提高自身的速率,同时也需要减少对其他D2D通信设备的干扰;将第m个D2D通信设备在第t个帧的奖励设计为 表示第k个D2D通信设备在第t个帧获得速率, 是信道选择变量,若第m个D2D通信设备在第t个帧选择信道 则 否则 是信道选择变量,若第j个D2D通信设备在第t个帧选择信道 则 否则 为第t帧时第j个D2D通信设备的发送端到第k个D2D通信设备的接收端在信道n上的信道响应, 表示第j个D2D通信设备在第t个帧选择的发送功率。