买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种D2D系统中基于深度强化学习的功率分配方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种D2D系统中基于深度强化学习的功率分配方法

￥20200

专利号： 202110475005X

申请人：电子科技大学

专利类型：发明专利

专利状态：已下证

更新日期：2025-12-30

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种D2D系统中基于深度强化学习的功率分配方法，D2D系统中具有N对链路对，即N个智能体，其特征在于，包括以下步骤：S1、每个智能体分别从中心控制器中接收过时的信道、功率信息和其他链路的功率决策信息，得到各自的观测向量；

S2、每个智能体单独创建自己的基于深度学习的功率分配网络，并建立自己的经验存储池；每个智能体单独创建的功率分配网络具体结构为：功率分配网络包括用于训练的Main网络和用于计算的Target网络，Main网络的输入输出均与经验存储池连接；

Main网络和Target网络的结构完全相同，均分别包含一个用于接收链路的状态信息并输出一个功率决策值的actor网络和用于对本次的输出进行评价的critic网络；Main网络在Actor和Critic网络计算损失函数后进行实时更新，Target网络用于计算目标Q值，用于固定Q值稳定网络；

S3、基于步骤S1获取的上一时刻的过时观测向量，根据功率分配网络进行在线决策获得当前时刻的功率分配结果，并将智能体和环境交互获得的状态、动作、奖励和观测向量一起存储入经验池中，同时从各自的经验存储池中取出数据对网络进行训练，更新网络参数，下一次进行在线决策时使用更新网络参数后的网络；

智能体和环境交互获得的状态、动作、奖励的定义分别为：定义状态为智能体i在时隙t的状态信息集合，K为状态信息的个数，其中，为上一时刻从发射机i到接收机j的信道增益，为上一时刻功率信2

息，为本链路发送机对其他接收机的干扰，σ代表了加性高斯白噪声的功率，为本链路接收机所受到其他链路发送机的干扰，为上一时刻本链路的速率，为t时刻用户i的SINR比，为本链路周围链路的信道信息，为过去的信息，

定义动作空间为对于智能体i，定义为当前智能体所要存储到经验池中的决策向量，为智能体在时隙t的动作，智能体在[0,Pmax]的值域中任取一个实数，Pmax为最大功率；

定义奖励函数为：

W为权重，代表了链路j抛去链路i对其产生的干扰后的速率；

表示如果没有其余链路对当前链路i产生影响，当前链路能够取得的速率。

推荐专利

一种基于深度强化学习的水下联合中继选择和功率分配方法

发明专利

面议

基于深度强化学习的城轨混合储能系统功率动态分配控制方法

发明专利

￥14000

一种基于深度强化学习的3D/2D医学图像配准方法

发明专利

￥21600

基于深度学习学生在线学习效率预测的模型检测方法

发明专利

￥26800

我要求购

您有专利需要变现?

我要出售

智能匹配需求，快速出售

摘要:

权利要求书:

利索能及

友情链接

关于我们

联系我们