1.基于超图的智能信息物理交通系统资源管理方法,其特征在于,包括步骤:S1、建立智能信息物理交通系统的超图干扰模型;
所述智能信息物理交通系统包括N个客户、M个设备到设备的客户对、多个路边单元和K个不同的信道资源,所述路边单元提供对网络的辅助接入,为不同的客户分配资源;每个信道最多分配给一个客户,并且每个客户对或客户最多使用一个信道;
所述超图干扰模型建立为H=(V,E),V表示由客户和客户对构成的顶点集,E表示超边集,超边集中的超边有强干扰形成的超边和累积干扰形成的超边,如果两个客户或客户对之间产生的干扰超过干扰阈值则该两个客户或客户对之间存在一条强干扰形成的超边,如果多个客户或客户对产生的干扰超过干扰阈值,则该多个客户或客户对存在一条累积干扰形成的超边;H=(V,E)由关联矩阵I表示为:关联矩阵I中第f行第j列的元素 vf表示顶点集中第f个顶点,ej表示超边集中第j条超边,1≤f≤F,1≤j≤J,F表示顶点数,J表示超边数;
S2、根据所述超图干扰模型和所述智能信息物理交通系统的传输速率、功率,采用基于强化学习的深度Q网络求解资源分配策略;
所述步骤S2具体包括步骤:
S21、结合功率、信道选择和干扰建立求解客户和客户对的速率的初始优化模型如下:其中, 为第n个客户Cn的通信速率, 为第m个客户对Dm的通信速率,ξn,k为Cn对信道k的选择因素,ζm,k为Dm对信道k的选择因素, 和 分别表示Cn和Dm的发射功率, 表示Cn与th路边单元之间的信道传输增益, 为Dm的信道传输增益,I 为干扰阈值,δ为干扰概率,为客户正常通信所需的最小速率, 为客户对正常通信所需的最小速率,ψ为满足客户的max通信所需最小速率的概率,ρ为满足客户对的通信所需最小速率的概率,p 为最大功率阈值,Pr{·}表示{·}中事件违规的概率,约束 是客户和客户对共存的干扰概率约束,表示客户和客户对的干扰不应超过干扰阈值的概率, 表示每个信道最多分配给一个客户,约束 表示每个客户对最多使用一个信道,约束 和 表示保证客户正常通信所需的最小速率的概率约束,约束 表示功率约束;
S22、对所述初始优化模型进行简化,得到最终优化模型:S23、基于离散马尔可夫决策过程、基于强化学习的深度Q网络和所述超图干扰模型、所述最终优化模型创建干扰避免资源分配模型;
S24、利用所述干扰避免资源分配模型求解下一时刻的资源分配策略;
在所述步骤S22中,所述最终优化模型表示为:
其中, 为化简后的 表示为:
cc、cd、qc、qd是为了简化 形式而自定义的中间参数,表示为:2
σ表示信道噪声功率;
其中, 为自定义的参数,表示为:
是一个辅助变量,
其中, 为自定义的参数,表示为:
和 为估计的第n个客户和第m个客户对的信道增益,为客户的信道估计误差,τ为‑1客户对的信道估计误差,Q ()为高斯反函数;
所述干扰避免资源分配模型包括Q网络、回放缓冲区、损失函数、∈‑greedy算法,强化学习代理通过深度神经网络从所述智能信息物理交通系统、所述超图干扰模型和所述最终优化模型中提取包括发射功率、干扰状态、客户及客户对的传输速率的状态信息,并将所述智能信息物理交通系统执行当前动作at获取到当前状态信息st的奖励rt一起发送至所述Q网络,所述Q网络输出最大的动作价值Q(st,at;θ),由所述∈‑greedy算法根据Q(st,at;θ)选择最大化预期长期奖励的下一个动作作用于所述智能信息物理交通系统,θ为所述Q网络的网络参数。
2.根据权利要求1所述的基于超图的智能信息物理交通系统资源管理方法,其特征在于,在所述步骤S23中,所述干扰避免资源分配模型的马尔科夫决策问题表示为:即获得最优分配策略π最大化累积贴现奖励J(π), 为期望算子,累积折扣奖励γ是折扣因子,Rt是当前累计折扣奖励,Rt由下式计算:其中,kt是当前使用的通信资源的数量,|V|表示顶点数量, 表示第k个资源的分配冲突度, 定义为:Ic(vi,k)表示分配相同的资源k的客户vi和客户v之间的冲突,Ic(vi,k)定义为:
3.根据权利要求2所述的基于超图的智能信息物理交通系统资源管理方法,其特征在于,所述Q网络的损失函数定义为:其中,Q(st+1,at+1;θ)表示目标值。
4.根据权利要求3所述的基于超图的智能信息物理交通系统资源管理方法,其特征在于,求解所述最终优化模型的步骤包括:S241、根据对偶理论,获取所述最终优化模型中优化问题Γ(x)的拉格朗日对偶函数如下:其中,α,l,χ, η,μ为各项式的非负拉格朗日乘子;
其中,L(x)定义如下:
S242、将所述最终优化模型转化为拉格朗日求解模型:其目标函数
S243、采用具有信道状态信息的鲁棒分配算法对所述拉格朗日求解模型进行求解。
5.根据权利要求4所述的基于超图的智能信息物理交通系统资源管理方法,其特征在于:在所述步骤S243中,求得的解表示为:其中, 表示求解得到的客户的传输速率, 表示求解得到的客户对的传输速率,都是辅助变量, 定义为:
6.基于超图的智能信息物理交通系统资源管理系统,其特征在于:包括超图干扰模型生成模块和无干扰资源分配模块,分别用于执行权利要求1~5任意一项所述的步骤S1、S2。