买专利、卖专利、专利购买、专利交易、专利出售、高企申报-基于深度强化学习的网络数据采集效率优化方法及系统

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

基于深度强化学习的网络数据采集效率优化方法及系统

￥31200

专利号： 2022106344360

申请人：南京信息工程大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-06-16

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于深度强化学习的网络数据采集效率优化方法，其特征在于，包括：将采集到的信息与路由规划影响特征参数进行对比，选择对路由规划影响权重更高的特征状态数据集；

建立动态多服务台队列模型，结合队列模型构建异质特征数据信息年龄模型；

通过深度强化学习求解不同特征数据更新频率间隔，定义优化前后各特征数据的信息年龄、服务器接收队列长度以及路由效果为损失函数，建立问题约束模型。

2.根据权利要求1所述的基于深度强化学习的网络数据采集效率优化方法，其特征在于，将包括网络连接状态、电台频率、工作模式、带宽、端到端时延的特征状态信息记为特征状态集；计算业务特征和路由影响因子两个特征集的对称不确定性，通过对称不确定性将特征集按照与集合的相关性从大到小排序，从而获得特征集。

3.根据权利要求2所述的基于深度强化学习的网络数据采集效率优化方法，其特征在于，假设特征状态集为，可描述路由规划影响因子的k维特征属性，可描述数据样本的m维特征属性；集合和重叠的部分被定义为：

是特征状态数据集的信息熵，是已知特征集的情况下，特征集对的条件熵，代表的值取为时的边缘概率分布，代表的值取为时的边缘概率分布，是的联合分布概率；

固定路由规划影响因子，计算互信息，将互信息集记为；

在特征状态集和路由影响因子集两个特征集之间计算对称不确定性，通过对称不确定性将特征集按照与集合的相关性从大到小排序，从而获得对路由规划影响最大的特征；

两个特征集之间对称不确定性的定义如下所示：

其中为信息增益，为特征状态集X

的信息熵，E(Y)特征状态集Y的信息熵，表示特征集Y对特征集X进行划分后的条件熵；的取值范围在0与1之间；

计算每个特征与之间的相关性，记为，用于判断一个特征是否与类别相关；通过序列浮动前向选择算法在大量候选特征中利用阈值进行初步筛选，获取与目标类别相关的特征子集，满足；将中各特征按照值的大小进行降序排列，根据的排序结果定义特征信息状态更新频率；然后取互信息集F与特征子集的交集，满足，剔除冗余特征后，使描述的相关度达到最优并按相关性从大到小排列。

4.根据权利要求3所述的基于深度强化学习的网络数据采集效率优化方法，其特征在于，所述的建立动态多服务台队列模型，具体为：设网络中独立终端被记，终端将不断收集网络信息，定期将这些信息发送至服务器，服务器收到信息后对路由组网过程进行全局规划；不同类型的数据对路由决策的影响程度不同，在给定路由影响因子后，计算与的互信息集与对称不确定性，得到按影响路由规划权重从大到小排列的特征数据集；

独立终端设置信息处理模块，时刻获得特征数据集包含的网络特征信息，将特征数据包记为以不同的信息更新频率分布向发送状态更新心跳包，服从负指数分布，且互相独立；

假设服务器的队列单元，满足M/M/h/R多处理队列混合制模型，从独立终端发送的特征状态信息xi的到达率服从参数为的负指数分布，节点关于所有状态特征信息更新的到达率为；处理队列数量为，的处理队列服务率服从参数为的负指数分布，系统的剩余队列资源容量为；当未被完全占用且暂时无法提供服务时，特征状态信息将进入队列等待；当被完全占用后，系统将发生丢包；

计算稳态条件下的队列长度的分布，特征的到达率和服务率满足以下方程：

记，当时，

其中

对多队列排队系统，稳态条件下可得服务器对特征数据的平均排队长为：特征数据的平均等待时间为：

。

5.根据权利要求4所述的基于深度强化学习的网络数据采集效率优化方法，其特征在于，结合队列模型构建异质特征数据信息年龄模型，具体为：特征信息在时刻进入的接收队列，记该服务时间为，为独立终端的发送时延，为与的传输时延；特征信息在时刻被响应，记该服务时间为；代表特征下次状态更新的时刻，记该等待时间为；

给定特征信息的信息年龄过程并假设其遍历性，通过收敛至其相应随机的样本均值来建立平均信息年龄模型；在时间区间[0, T]内，每个特征数据的状态更新的平均信息年龄为：在趋向于无穷大时，可认为；

是下一次特征数据的发送时延，是下一次特征数据等待处理的时延，是离散条件下的面积，特征信息的平均信息年龄为：。

6.根据权利要求5所述的基于深度强化学习的网络数据采集效率优化方法，其特征在于，提供深度强化学习模型对多目标进行联合优化，在第t次迭代时，根据不同特征数据更新频率，计算服务器状态更新队列平均长度以及特征数据的信息年龄，优化路由后网络系统平均传输时延，丢包数，建立问题约束模型，代表算法迭代次数，计算各特征数据信息年龄对路由规划的影响，根据路由决策的结果设计奖励函数，确定收敛目标；优化问题被记为以下约束：Minimize:

Subject to:

。

7.根据权利要求6所述的基于深度强化学习的网络数据采集效率优化方法，其特征在于，基于深度强化学习的车际移动自组网信息采集间隔优化框架将特征数据的更新频率视为一个智能体，将网络路由结果的平均时延、丢包数，服务器队列长度视为状态E；

每个训练周期中共迭代次，智能体获取初始环境状态E0，之后执行动作对的更新频率进行随机加权分配；执行动作后，智能体获得环境相应的奖励值，并继续观察下一时刻状态；

环境状态表示为两个部分：服务器接收特征数据时的处理队列长度记为R(t)，以及当前时刻的信息年龄；系统在接收到数据之后，系统按照现有状态将做一次路由规划，规划完成后计算系统的平均传输时延，总丢包数，当前时刻t的系统状态可表示为：

对于，系统在时刻t的动作被定义为：

价值函数被定义为，学习参数为满

足的常数；是系统收益奖励函数，系统的动作将会使发生改变，对于车载移动自组网的数据信息采集系统，存在特征数据的更新频率使得系统的收益为：其中，，是算法总共迭代的次数，定义为不同

特征数据的信息年龄在迭代一次后效果的差值，同理可得服务器状态更新队列平均长度、丢包数、平均传输时延的差，累加整个迭代周期的差值作为系统收益奖励函数。

8.一种基于深度强化学习的网络数据采集效率优化系统，其特征在于，包括：特征数据分析模块，用于将采集到的信息与路由规划影响特征参数进行对比，选择对路由规划影响权重更高的特征状态数据集；

处理队列与信息年龄构建模块，用于建立动态多服务台队列模型，结合队列模型构建异质特征数据信息年龄模型；

深度学习求解模块，通过深度强化学习求解不同特征数据更新频率间隔，定义优化前后各特征数据的信息年龄、服务器接收队列长度以及路由效果为损失函数，建立问题约束模型。