买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于深度强化学习的异构网络节能路由方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于深度强化学习的异构网络节能路由方法

￥22800

专利号： 2022107676170

申请人：重庆邮电大学

专利类型：发明专利

专利状态：已下证

更新日期：2025-12-30

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于深度强化学习的异构网络节能路由方法，其特征在于，构建传感器网络，所述传感器网络包括一个sink节点、M个传感器节点、K种不同类型的传感器；传感器设置预定义计划感知环境并采集数据，每种传感器采集的数据类型不同，传感器网络中共有K种数据类型；每个传感器节点都有与K种数据类型一一对应的缓存队列；

每种传感器的预定义计划包括感应时间、感应间隔和等待时间；感应时间为传感器节点采集环境数据的时间长度；感应间隔为传感器节点相邻两次采集环境数据的时间间隔；

等待时间为传感器节点接收邻居节点的数据的时间长度；

基于深度强化学习的异构网络节能路由方法，包括以下步骤：

S1.任一传感器节点中的传感器根据自身的预定义计划感知环境，在自身的预定义计划内收集观测数据并存入对应的缓存队列；

S2.该传感器节点接收来自邻居节点的数据并将其存入对应的缓存队列；

S3.该传感器节点将存储在同一缓存队列的数据聚合，K种缓存队列对应K种聚合数据；

S4.构建基于深度强化学习的Q学习自适应算法，该传感器节点通过Q学习自适应算法为每种聚合数据选择下一跳传感器节点。

2.根据权利要求1所述的一种基于深度强化学习的异构网络节能路由方法，其特征在于，任一种聚合数据通过Q学习自适应算法选择下一跳传感器节点进行转发的过程为：S11.传感器节点s确定该聚合数据的数据类型，在Q路由表中选择该数据类型的转发优先级最大的传感器节点s′；

S12.传感器节点s将该聚合数据转发给传感器节点s′，传感器节点s′接收并返回响应数据包，响应数据包包括奖励信息和确认接收信息；

S13.传感器节点s接收响应数据包并更新自身的Q路由表。

3.根据权利要求2所述的一种基于深度强化学习的异构网络节能路由方法，其特征在于，传感器节点s′接收聚合数据并计算奖励信息反馈给传感器节点s，奖励信息的计算公式为：RL＝ls(s,s′)

其中，R为数据传输奖励；RDA为数据聚合奖励；RE为剩余能量水平奖励；RL为链路强度奖励；Es′为下一跳传感器节点s′的剩余能量水平；为下一跳传感器节点s′的当前剩余能量；为下一跳传感器节点s′的初始能量水平；ls为发送数据的传感器节点s与接收数据的下一跳传感器节点s′的链路强度；αl、βl、γl为自适应权重系数；Rs为sink节点固定奖励，Re为下一跳传感器节点s′的低能量水平负奖励；表示下一跳传感器节点s′接收t类型数据后t类型缓存队列的大小；表示下一跳传感器节点s′聚合t类型数据后得到的聚合数据的大小；表示最大数据聚合奖励。

4.根据权利要求3所述的一种基于深度强化学习的异构网络节能路由方法，其特征在于，传感器节点s接收响应数据包后，根据响应数据包中的奖励信息更新对应传感器的Q路由表，更新公式为：Q′(s,a)＝Q(s,a)+λ{R‑Q(s,a)}

其中，λ表示学习率，Q′(s,a)表示更新的Q值，R表示数据传输奖励，Q(s,a)表示更新前的Q值。

5.根据权利要求4所述的一种基于深度强化学习的异构网络节能路由方法，其特征在于，Q学习自适应算法中的Q值由数据聚合度，节点剩余能量水平，链路强度三部分组成，Q值计算公式为：其中，s为传感器节点，a为传感器节点s在其Q路由表中选择某一传感器节点作为下一跳节点的动作，Q(s,a)为传感器节点s执行动作a的Q值；DA(s,a)为传感器节点s选择动作a的数据聚合度；为传感器节点s选择动作a代表的下一跳节点的剩余能量水平；为节点s选择动作a代表的下一跳节点的链路强度。

6.根据权利要求1所述的一种基于深度强化学习的异构网络节能路由方法，其特征在于，传感器节点由传感器和收发器组成，一个传感器节点配备一种或一种以上的传感器。