利索能及
我要发布
收藏
专利号: 2021106251427
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-30
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于差异化服务的无人机资源动态部署方法,其特征在于,包括以下步骤:

1)构建动态需求模型,确定用户及无人机所有者的效用;

2)构建马尔科夫博弈模型,将步骤1)中的收益最大化问题转化为马尔科夫优化问题;

3)在完全信息状态下,构建专家策略,使得性能达离线最优;

4)在局部信息状态下,基于步骤3)获得的离线专家策略集,构建智能体在线学习策略;

所述步骤1)构建动态需求模型,确定用户及无人机所有者的效用,具体包括:动态需求模型包含H个热点区域,以及K个无人机所有者,在每个时隙t中,用户i以概率生成服务请求Λhi(t)并定义为 其中dhi(t)表示所需服务能力,ιhik(t)∈[0,1]表示在热点区域h中的用户i对服务k的偏好程度;

位于热点区域h的用户i购买服务的预算用ehi表示,热点区域h的总用户数用mh(t)表示,那么热点区域h的用户总预算为 用户对服务k的聚合偏好为:热点区域h在时隙t内对服务k的总需求表示为: 那么热点区域h内的聚合用户效用可通过以下公式计算:

其中0<α<1表示不同服务的可替代程度,变量qhk(t)为无人机所有者可以在时隙t内为热点区域h提供的服务总量,在缓存应用中qhk(t)代表可提供的传输速率,系统用户总收益用以下公式计算:无人机所有者的服务开销包含两部分:维护成本和能耗成本,其中单位维护成本用g0表示,单位动力能耗成本用gs表示,单位服务能耗用gc表示,无人机所有者k在时隙t内的能耗成本通过以下公式计算:表达式 表示所需的无人机数量,其中bk表示单个无人机的服务容量,无人机所有者k在时隙t内的收益通过以下公式计算:Γhk(t)=pk(t)qhk(t)‑chk(t),其中pk(t)是服务k在时隙t内的价格;

基于以上用户聚合效用和无人机所有者收益的定义,优化目标一为最大化用户总效用,问题描述如下:P1:

上述约束条件确保热点区域h在时隙t内的用户总开销不超过总预算;

目标二是最大化无人机所有者的长期收益,问题描述如下:P2:

所述步骤2)构建马尔科夫博弈模型,将步骤1)中的收益最大化问题转化为马尔科夫优化问题,具体包括:步骤1中定义的无人机所有者收益最大化问题转化为马尔科夫博弈问题,该博弈可以用元组表示,各元素的含义如下:状态S:代表所建立的马尔科夫博弈模型状态信息,表示为其中,S1表示用户的状态,包括用户产生的服务需求、服务偏好以及预算;S2表示无人机所有者的状态,包括单位成本开销、服务容量以及服务可替代度;S3表示所提供服务的状态,包括过去所提供服务的数量和价格;

观测状态O:系统中的无人机所有者不能观测到系统状态S,仅可观测部分信息并表示为 其中 是无人机所有者k的观测状态,包括用户的预算、无人机所有者单位成本开销、服务容量以及服务可替代度、以及过去所提供服务的数量和价格;

动作A:无人机所有者的动作集合表示为 其中Δqhk(t)是和上一时隙相比所需额外提供的服务数量;

t+1 t t t

状态转移概率P:表示为P:S×A×S→[0,1],基于概率P(s |s ,a)和动作a ,系统状态t t+1从s跳转到s ;

奖励函数R:可表示为 S×A→R,代表时隙t内智能体k执行动作 后获得的瞬时奖励;

瞬时奖励可通过如下公式计算: 这样无人机所有者的目标函数转换最大化累计瞬时奖励所述步骤3:在完全信息状态下,构建专家策略,使得性能达离线最优,具体包括:在完全信息状态下,对优化问题P1和P2进行转换,得到服务数量和价格的关系:优化问题P1和P2转化为仅与未知变量qhk(t)的函数,同时验证P1和P2的最优解一致,专家策略通过以下步骤获得:

1)K个专家根据当前系统状态并通过求解以下方程获取最优服务数量qhk(t):其中Ak=(go+gs+gcbk)/bk,变量bk为单个无人机的服务资源容量,变量qh,‑k为服务k以外α的其它服务在热点区域k提供的服务数量;变量Qk=fhk(t)[qhk(t)],且

2)对每个时隙K个专家所执行的动作、系统状态、可观察状态及奖励进行记录,形成数据集合;

所述步骤4:在局部信息状态下,基于步骤3)获得的离线专家策略集,构建智能体在线学习策略,具体包括:首先在部分观测状态下,每个智能体需要对对手策略进行预测,基于占用率度量匹配策略可建立智能体K的策略πk和对手策略π‑k之间的关系,表示为:其中o表示观测状态,采用生成对抗网络训练智能体策略,优化问题可转化为如下形式:P3:

其中 表示基于智能体策略πk和π‑k的期望,Dk表示生成对抗网络的输出;只需要找到鞍点(πk,Dk)即可求解此问题;

其次,为求解鞍点(πk,Dk),对智能体策略模型进行训练。

2.根据权利要求1所述的一种基于差异化服务的无人机资源动态部署方法,其特征在于,为了满足用户需求,由同一无人机所有者管辖的无人机形成一个mesh网络盘旋于热点位置h的上空,该mesh网络中各节点可相互通信并自适应地进行负载均衡,且不同无人机所有者管辖的无人机不相互通信;用户只需要将服务需求上传到其偏好类型且离其最近的无人机。