买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于深度强化学习的物联网智能拥塞控制方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于深度强化学习的物联网智能拥塞控制方法

￥30000

专利号： 2023105019164

申请人：重庆邮电大学

专利类型：发明专利

专利状态：已下证

更新日期：2025-12-30

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于深度强化学习的物联网智能拥塞控制方法，其特征在于，包括：构建物联网系统，该系统包括终端节点、簇头节点、中继节点以及sink节点；终端节点向簇头节点发送数据包；簇头节点根据终端节点发送的数据包设置缓冲队列，并获取当前簇头节点状态信息；当前簇头节点状态信息包括：缓冲队列的占用情况、信道负载和数据包服务时间；其中缓冲队列的占用情况用于确定节点的拥塞情况，信道负载用于确定当前节点的信道竞争大小，数据包服务时间用于确定数据包到达介质访问控制层的时刻与其向上递送数据时刻的差值；根据当前簇头节点状态信息确定簇头节点的拥塞状态，并将拥塞状态发送给中继节点；中继节点根据拥塞状态获取物联网中各个节点的状态信息，并将状态信息发送给sink节点；sink节点采用改进的DQN算法对物联网的状态信息进行优化，得到拥塞控制策略，根据拥塞控制策略对簇头节点中的队列任务进行分配，完成拥塞控制；

将拥塞状态发送给中继节点包括：采用非时隙CSMA/CA算法将拥塞状态传输给中继节点，具体过程包括：S1：初始化簇头节点MAC层数据包的参数，该参数包括后退次数NB、退避指数BE、帧重传次数FR以及竞争窗口CW；

S2：簇头节点感知中继节点的信道空闲状态，若中继节点的处于空闲状态，则簇头节点BE进行信道接入，否则节点在[0,2 ‑1]随机选择一个退避数进行退避；

S3：当节点退避结束后，执行空闲信道检测，若当前信道空闲，则将退避后的节点接入信息，否则NB值增加1，BE值增加1；

S4：确定当前退避次数与最大CSMA退避值的大小，当NB的值超过MAC层所设定的最大CSMA退避值时，该节点本轮信道接入失败，否则返回步骤S2；

采用改进的DQN算法对物联网的状态信息进行优化的过程包括：

步骤1：网络初始化，该初始化包括一个容量为N的经验重放池Φ，评估网络权重参数θ，目标网络权重参数θ；最大训练轮数M，当前训练轮数Ne，每轮训练过程的总时间T；

步骤2：智能体与网络环境进行交互，确定当前训练轮数是否达到最大训练轮数，若达到最大训练轮数，则输出优化后的物联网状态信息；否则执行步骤3；

步骤3：对网络环境进行重置，即初始化参数默认设置成原始值，训练时间步长t初始为

0；

步骤4：智能体获取当前网络的训练时间t，当t>T，则训练结束，跳至步骤12，否则执行步骤5；

步骤5：采用深度Q网络学习最优的选择策略，根据最优选择策略选取最优的动作；具体包括：智能体获取环境信息，并将获取的环境信息输入到策略网络中，得到当前时刻的动作；根据当前时刻的动作采用奖励函数计算智能体当前动作的奖励；将当前网络的状态、任务动作、即时奖励以及下一时刻网络状态作为四元组存放到优先经验重放数组中；采用优选经验重放数组中的数据对策略网络和价值网络进行训练，更新Q函数；计算模型的损失函数，采用累计折扣奖励对损失函数进行优化，当累计折扣奖励最大时，损失函数收敛，完成模型训练，输出最优选择策略；

计折扣奖励的公式为：

i‑t

其中，т表示智能体，γ 表示折扣率，rt表示t时刻下智能体得到的奖励，st表示t时刻下智能体的状态，π(st)表示智能体在st下的策略函数；

对Q函数进行更新的公式为：

其中，st+1表示t+1时刻下智能体的状态，at+1表示t+1时刻下智能体的动作，Q(st,at)表示t时刻下智能体的动作价值函数，α表示学习率，rt(st,at)表示智能体在st,at下获得的奖励，γ表示折扣率，a表示动作集合，Qt表示t时刻下智能体的动作价值函数；

模型的损失函数的表达式为：

其中，表示期望，rt表示t时刻下智能体得到的奖励，γ表示智能体得到的回报折扣′率，Q表示动作价值函数，θ表示目标网络的权重参数，θ表示评估网络的权重参数；

步骤6：采用信道竞争访问算法确定节点是否达到最大重传次数，若达到重传次数，则该节点成功接入信道，并则执行步骤7，否则返回步骤4；

步骤7：确定成功接入信道的节点是否接收到ACK信息，若接收到信息，则执行步骤9，否则执行步骤8；

步骤8：对成功接入信道的节点执行ACK反馈恢复机制，并重新对该节点发送ACK信息，若接收到信息，则执行步骤9，否则本轮数据传输失败，并返回步骤6；

步骤9：将完全经验存储在完全经验池中，并随机抽样小批次的经验，通过梯度下降寻找损失函数最小值，根据损失函数最小值对评估网络参数θ进行更新；

步骤10：判断当前网络是否达到目标网络更新参数周期，若达到目标网络更新参数周期，则执行步骤11，否则返回步骤4；