利索能及
我要发布
收藏
专利号: 2022107676170
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-30
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于深度强化学习的异构网络节能路由方法,其特征在于,构建传感器网络,所述传感器网络包括一个sink节点、M个传感器节点、K种不同类型的传感器;传感器设置预定义计划感知环境并采集数据,每种传感器采集的数据类型不同,传感器网络中共有K种数据类型;每个传感器节点都有与K种数据类型一一对应的缓存队列;

每种传感器的预定义计划包括感应时间、感应间隔和等待时间;感应时间为传感器节点采集环境数据的时间长度;感应间隔为传感器节点相邻两次采集环境数据的时间间隔;

等待时间为传感器节点接收邻居节点的数据的时间长度;

基于深度强化学习的异构网络节能路由方法,包括以下步骤:

S1.任一传感器节点中的传感器根据自身的预定义计划感知环境,在自身的预定义计划内收集观测数据并存入对应的缓存队列;

S2.该传感器节点接收来自邻居节点的数据并将其存入对应的缓存队列;

S3.该传感器节点将存储在同一缓存队列的数据聚合,K种缓存队列对应K种聚合数据;

S4.构建基于深度强化学习的Q学习自适应算法,该传感器节点通过Q学习自适应算法为每种聚合数据选择下一跳传感器节点。

2.根据权利要求1所述的一种基于深度强化学习的异构网络节能路由方法,其特征在于,任一种聚合数据通过Q学习自适应算法选择下一跳传感器节点进行转发的过程为:S11.传感器节点s确定该聚合数据的数据类型,在Q路由表中选择该数据类型的转发优先级最大的传感器节点s′;

S12.传感器节点s将该聚合数据转发给传感器节点s′,传感器节点s′接收并返回响应数据包,响应数据包包括奖励信息和确认接收信息;

S13.传感器节点s接收响应数据包并更新自身的Q路由表。

3.根据权利要求2所述的一种基于深度强化学习的异构网络节能路由方法,其特征在于,传感器节点s′接收聚合数据并计算奖励信息反馈给传感器节点s,奖励信息的计算公式为:RL=ls(s,s′)

其中,R为数据传输奖励;RDA为数据聚合奖励;RE为剩余能量水平奖励;RL为链路强度奖励;Es′为下一跳传感器节点s′的剩余能量水平; 为下一跳传感器节点s′的当前剩余能量; 为下一跳传感器节点s′的初始能量水平;ls为发送数据的传感器节点s与接收数据的下一跳传感器节点s′的链路强度;αl、βl、γl为自适应权重系数;Rs为sink节点固定奖励,Re为下一跳传感器节点s′的低能量水平负奖励; 表示下一跳传感器节点s′接收t类型数据后t类型缓存队列 的大小; 表示下一跳传感器节点s′聚合t类型数据后得到的聚合数据的大小; 表示最大数据聚合奖励。

4.根据权利要求3所述的一种基于深度强化学习的异构网络节能路由方法,其特征在于,传感器节点s接收响应数据包后,根据响应数据包中的奖励信息更新对应传感器的Q路由表,更新公式为:Q′(s,a)=Q(s,a)+λ{R‑Q(s,a)}

其中,λ表示学习率,Q′(s,a)表示更新的Q值,R表示数据传输奖励,Q(s,a)表示更新前的Q值。

5.根据权利要求4所述的一种基于深度强化学习的异构网络节能路由方法,其特征在于,Q学习自适应算法中的Q值由数据聚合度,节点剩余能量水平,链路强度三部分组成,Q值计算公式为:其中,s为传感器节点,a为传感器节点s在其Q路由表中选择某一传感器节点作为下一跳节点的动作,Q(s,a)为传感器节点s执行动作a的Q值;DA(s,a)为传感器节点s选择动作a的数据聚合度; 为传感器节点s选择动作a代表的下一跳节点的剩余能量水平; 为节点s选择动作a代表的下一跳节点的链路强度。

6.根据权利要求1所述的一种基于深度强化学习的异构网络节能路由方法,其特征在于,传感器节点由传感器和收发器组成,一个传感器节点配备一种或一种以上的传感器。