利索能及
我要发布
收藏
专利号: 2019109685168
申请人: 山东师范大学
专利类型:发明专利
专利状态:已下证
更新日期:2024-09-12
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种异构车联网中面向异质业务的分布式资源分配方法,其特征在于,步骤如下:

获取异构蜂窝车联网系统内的蜂窝用户、通信信道和V2V用户信息;

采用时延违约概率和归一化的吞吐量,构建V2V用户时延敏感业务的效用函数和时延容忍业务的效用函数,得到V2V用户异质业务的混合效用函数;

建立多用户的马尔可夫决策模型,确定状态空间、动作空间和回报函数,确定动作空间为通信信道的选择和发射功率的选择,并以混合效用最大化为目标,确定回报函数;

通过采用MADDPG算法训练好的Actor网络,根据每个V2V用户当前观测到的状态信息,以每一个V2V用户获得最高的回报为目标,得到关于通信信道和发射功率选择的最佳动作,进而得到最佳的资源分配方式。

2.如权利要求1所述的异构车联网中面向异质业务的分布式资源分配方法,其特征在于,异构的蜂窝车联网系统内,包括多个蜂窝用户和多对基于D2D的V2V用户,所述蜂窝用户使用相互正交的蜂窝链路与相连基站进行通信,所述V2V用户复用蜂窝用户的上行链路,且多个V2V用户能够复用一个信道但每一个V2V用户最多占用一个信道。

3.如权利要求1所述的异构车联网中面向异质业务的分布式资源分配方法,其特征在于,所述时延敏感业务的效用函数直接采用基于时延违约概率的丢包率获取,具体为:其中, 为第k个用户的时延敏感类的效用函数,Pdly为超过时延要求的丢包率,Tth表示时延要求的阙值,Tk为队列中等待的时间;

所述时延容忍类业务采用整个传输过程中归一化的吞吐量来反映通信质量的总体的情况,所述时延容忍类业务的效用函数具体为:其中, 表示第k个用户时延容忍类业务的效用函数,Wth为V2V用户传输时延容忍类业务所需的物理吞吐量,Wk为V2V用户实时的吞吐量。

当V2V用户具有时延敏感和时延容忍两类异质业务时,建模为混合效用函数:

其中,Rk(t),为k用户在t时刻的混合效用函数,bk为业务类型标识因子,bk=1表示为时延敏感类业务,bk=0表示时延容忍类业务。

4.如权利要求1所述的异构车联网中面向异质业务的分布式资源分配方法,其特征在于,建立多用户的马尔可夫决策模型,确定状态空间、动作空间和回报函数;

所述状态空间包含V2V用户的信道接入情况、发射功率、业务类型和干扰情况,sk表示第k个用户的状态;

所述动作空间为每个V2V用户的当前动作,所述当前动作为V2V用户的信道选择和发射功率选择,ak表示第k个V2V用户的当前动作;

所述回报函数为当第k个V2V在状态sk时,采取了动作ak就会获得一个立即回报r。

5.如权利要求4所述的异构车联网中面向异质业务的分布式资源分配方法,其特征在于,利用MADDPG算法,Critic网络采用DQN强化学习算法思想,经过贝尔曼方程的递归计算得到累积回报函数。

6.如权利要求1所述的异构车联网中面向异质业务的分布式资源分配方法,其特征在于,利用MADDPG算法,集中训练Actor网络和Critic网络,分布执行Actor决策网络,得到最佳的资源分配方式,具体为:(9-1)初始化蜂窝用户和V2V用户数、学习速率、迭代次数、Critic网络和Actor网络的参数,reply buffer D=0;

(9-2)第一次迭代开始,每一个V2V用户从环境中得到一个初始的状态S;

(9-3)每一个V2V用户根据Actor网络的确定性策略由初始状态,选择一个动作ai,并得到一个立即回报r,更新到下一个状态S’,将集合(S,a,r,S'),存入到reply buffer D中;

在MADDPG算法中,集中训练表示为,每一个V2V用户使用经验回放方法,观测到其他用户的信息,其中经验缓存区D具体表示为一个所有用户此时的状态,选择动作,获得立即回报,下一时刻状态的集合:D={s1,s2……sK,a1,a2……aK,r1,r2……rK,s1',s2'……sK'};

(9-4)Critic网络的构建和更新:对于每一个V2V用户,从D中选取一部分数据,训练一个集中的动作值函数,输入网络中所有V2V用户的状态和动作信息,输出此用户此状态下每一个动作的输出Q值,再利用最小化loss函数,更新Critic网络;

(9-5)Actor网络的构建和更新:对于每一个V2V用户,从D中选取一部分数据,根据Actor网络自身的确定性策略梯度和从Critic网络传来的集中的状态-动作Q函数值,输出此状态下最佳的动作,利用确定性策略梯度下降方法,更新Actor网路;

(9-6)重复步骤(9-3)、(9-4)和(9-5)到设定得次数,第一迭代结束;再迭代到设定的次数,更新Actor和Critic的网络参数,并返回训练好的在线Actor网络;

(9-7)利用训练好的Actor网络,输入每个V2V用户当前观测到的状态信息,得到关于通信信道和发射功率选择的最佳动作,进而得到最佳的资源分配方式。

7.如权利要求6所述的异构车联网中面向异质业务的分布式资源分配方法,其特征在于,所述步骤(9-4)中,Critic网络包括两个神经网络,分别为Critic目标网络和在线的估计网络,两者具有相同的网络参数,两个网络用于实现通过每个V2V用户输入的状态和动作,输出相应的Q值,根据最小化loss函数,即传回的TD error目标Q值减去估计Q值,进行网络参数的更新;

或,所述步骤(9-5)中,Actor的网络包括两个神经网络,分别为Actor目标网络和在线的策略估计网络,两者具有相同的网络参数,根据Actor网络自身的确定性策略梯度和从Critic网络传来的集中的状态-动作Q函数值决定输出动作,通过确定性策略梯度下降方法更新网路参数。

8.一种异构车联网中面向异质业务的分布式资源分配系统,其特征在于,包括:

数据采集模块,被配置为:获取异构蜂窝车联网系统内的蜂窝用户、通信信道和V2V用户信息;

数据预处理模块,被配置为:采用时延违约概率和归一化的吞吐量,构建V2V用户的时延敏感业务的效用函数和时延容忍业务的效用函数,得到V2V用户异质业务的混合效用函数;

数据处理模块,被配置为:建立多用户的马尔可夫决策模型,确定状态空间、动作空间和回报函数,确定动作空间为通信信道的选择和发射功率的选择,并以混合效用最大化为目标,确定回报函数;

资源分配模块,被配置为:通过采用MADDPG算法训练好的Actor网络,根据每个V2V用户当前观测到的状态信息,以每一个V2V用户获得最高的回报为目标,得到关于通信信道和发射功率选择的最佳动作,进而得到最佳的资源分配方式。

9.一种介质,其上存储有程序,其特征在于,该程序被处理器执行时实现如权利要求1-

7任一项所述的异构车联网中面向异质业务的分布式资源分配方法中的步骤。

10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7任一项所述的异构车联网中面向异质业务的分布式资源分配方法中的步骤。