买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于Q学习的能量受限物联网数据采集和融合方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于Q学习的能量受限物联网数据采集和融合方法

￥14000

专利号： 2023105220702

申请人：山东省计算中心(国家超级计算济南中心)

专利类型：发明专利

专利状态：已下证

更新日期：2025-10-14

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于Q学习的能量受限物联网数据采集和融合方法，其特征在于，包括：步骤a.建立无人机群能耗模型：

无人机执行任务的能耗包括无人机数据传输能耗和行动能耗；

当无人机飞行到单个节点上方时，节点将节点数据传输到无人机的能耗表示为Enode：2

Enode＝λ·etp·Eamp1·H (1)在公式(1)中，λ为节点数据的数据量；etp为发送每单位量的节点数据所需能耗；Eamp1为节点内发送放大器能耗；H为节点到无人机的距离；

无人机k根据路径规划从各节点接收节点数据能耗总和表示为Ecp：Ecp＝s·λ·ecp (2)

在公式(2)中，s为无人机k访问节点的个数；ecp为接收每单位量的节点数据所需能耗；

设定距离基站最近的无人机为中继无人机UAVrp，用于将其他无人机的数据收集后统一发送给基站，无人机k的数据发送能耗表示为Euav：在公式(3)中，Eamp2为无人机内的发送放大器能耗；d为无人机之间的距离；R为提前设定的距离阈值；

所述中继无人机UAVrp接收其他无人机数据能耗表示为Ere：Ere＝N·λ·ecp (4)在公式(4)中，N为应用场景中的N个节点；

所述中继无人机UAVrp将所有数据发送到基站能耗表示为Etr：2

Etr＝N·λ·etp·Eamp2·r (5)在公式(5)中，r为中继无人机与基站之间的距离；

无人机行动能耗包括飞行能耗和悬停能耗，其中单位时间飞行能耗为ef，单位时间悬停能耗为es；

为无人机k设置二维数组记录其飞行轨迹，其中a和b分别是地面节点：如果无人机k不经过地面节点a和b之间的路径，则否则

无人机k的总飞行距离表示为：

在公式(6)中，Lab无人机从节点a到节点b的飞行距离；

无人机群将所有节点遍历，存在以下约束条件：在公式(7)中，U为无人机群中无人机的总数；

将给定的数据收集任务时间Γ划分为T个时隙：当无人机群完成数据收集任务花费t个时隙时，则任务时间存在以下约束：t·Δt≤Γ (8)

在公式(8)中，Δt表示每个时隙的时间；

设定安全距离dsafe，在任意时隙ts中，无人机i和无人机j之间存在以下约束：在公式(9)中，表示在任意时隙ts中无人机i和无人机j之间的距离；

在每个时隙中，无人机k：

根据规划路径飞行到指定节点上方收集数据，并悬停等待通过改进的Q‑Learning算法获得下一个未访问节点坐标，则其飞行总能耗表示为：在公式(10)中，ef为无人机单位时间飞行能耗；v为无人机飞行速度；

同样，无人机k在节点b的悬停能耗表示为：则无人机k的悬停总能耗表示为：

则无人机k的行动总能耗为：

无人机携带的电池最大电量为Emax，在无人机k能量消耗殆尽之前完成采集任务对应的约束：Ecost＜Emax (14)在公式(14)中，Ecost为无人机任务完成时耗费的电池能量；

对数据采集任务优化行动能耗，即

在多无人机协作的数据采集任务中，最小化行动能耗E，则优化问题表述为：步骤b.动态选择中继无人机：

当所有节点访问完成后，根据无人机群的位置动态选择距离基站最近的无人机作为中继无人机：计算各无人机与基站的距离：

在公式(16)中，基站部署在地面上，其坐标为(xs，ys，0)；无人机k坐标为(xk，yk，H)；选择距离基站最近的无人机作为中继无人机，中继无人机接收其他无人机的所有数据飞往基站。

2.根据权利要求1所述的一种基于Q学习的能量受限物联网数据采集和融合方法，其特征在于，通过改进的Q‑Leaming算法获得下一个未访问节点坐标的方法包括：结合约束条件公式(7)、(8)、(9)、(14)，将最小化行动能耗问题转化为MDP，元组解释为：状态空间S：多无人机场景下，每个无人机悬停位置坐标；

动作空间A：设置飞行角度θ集合，动作a为以速度v、飞行角度θ移动；

奖励R：无人机群收集物联网中节点存储数据的路径规划问题在多无人机场景下数据采集的奖励函数表示为：Rt＝Rat+Rdt+Rst (16)在公式(16)中，Rat为飞行旋转角度奖励；Rdt是节点距离奖励；Rst是安全距离约束奖励；

Rat与下一时间段无人机飞行角度大小有关，该奖励用于鼓励无人机减小飞行旋转角度，表示为：在公式(17)中，α1为奖励权重；θt+1为下一个时隙无人机的飞行旋转角度；

Rdt用于鼓励无人机访问距离更近的节点，以减少飞行路径，其表示如下：在公式(18)中，α2为奖励权重；dmax为所有节点距离的最大值；dab表示无人机t+1时隙从节点a到节点b的距离；Anode为未访问节点集合；

Rst用于避免多无人机协同工作发生碰撞，当两个无人机距离过近时给予惩罚，鼓励无人机之间保持安全距离：在公式(19)中，α3为奖励权重；dij为无人机i和无人机j之间的距离；dsafe为设定的无人机之间的安全距离；

以上述无人机飞行角度转变，节点距离奖励和安全距离约束作为奖励函数，初始化Q表并更新，更新公式如下：NewQ(st，at)＝Q(st，at)+α[R(st，at)+γmaxa′Q(st+1，a′)‑Q(st，at)] (20)在公式(20)中，α为学习率；γ为折扣因子；NewQ(st，at)：状态st和动作at的更新后的新Q值；Q(st，at)：状态st和动作at的Q值；R(st，at)：状态st和动作at的奖励；maxa′Q(st+1，a′)：新的状态st+1和该状态下所有可能的行动a′的最大预期未来奖励；

当Q表迭代完成后，根据Q值指导无人机的飞行路线。

3.根据权利要求1或2所述的一种基于Q学习的能量受限物联网数据采集和融合方法，其特征在于，在所述步骤a之前还包括：定义实际应用场景：应用场景中共N个节点，U个无人机，节点n的坐标为(xn，yn)，无人机k的坐标为(xk，yk，H)，H为无人机的飞行高度；无人机从节点a到节点b的飞行距离为：在公式(21)中，节点a的坐标为(xa，ya)，节点b的坐标为(xb，yb)；记录无人机数据收集情况：记录未访问节点集合Anode和已访问节点集合Snode。