1.一种基于自适应边界的分布式强化学习稳定拓扑生成方法,其特征在于:包括有以下步骤:
步骤1动态拓扑构建:在一块区域内布置N个节点,各节点根据移动自组织网络MANET中随机游走移动模型的方式在区域内进行随机移动,形成MANET的动态拓扑结构,定义每个节点都存在一个自适应强化学习的区间[a,b];
步骤2划分自适应强化学习区间及Q值表初始化:在构建的MANET中,各节点初始化,设各节点的初始归一化发射功率为0dBm,节点与其邻居节点间的稳定拓扑联接临界归一化强度值为dwindBm,初始设置各节点学习期间[a,b]中上界a与下界b的值都等于dwindBm;节点接收到邻居节点的接收信号强度值RSSI,按接收信号强度值划分的三个区间[0,a)、[a,b]、(b,-∞)分别进行拓扑联接稳定性处理;区间[a,b]为Q-learning强化学习方法的拓扑稳定性学习区间,简称为自适应区间,在自适应区间内采用Q-learning方法进行拓扑稳定性自适应强化学习和预测;区间[0,a)、(b,-∞)内进行状态的直接决策,简称直接决策区间,即节点直接判断其与邻居节点的拓扑联接稳定性;随着Q-learning方法的执行,自适应区间[a,b]的边界值会自适应更新,进行自适应区间扩展;网络中每个节点会初始化建立一个Q值表,表中元素对应其与每一邻居节点在不同状态和动作下的强化学习Q值;设置状态集S={s1,s2},状态s1为当前节点与某邻居节点处于稳定联接状态,状态s2为当前节点与某邻居节点处于非稳定联接状态;设置动作集A={a1,a2},动作a1为预判稳定状态,动作a2为预判非稳定状态;节点根据与各个邻居节点所处的联接状态si以及所采用策略π(si,aj)选择动作aj,i状态序号取值为1、2,j为动作序号1、2;针对节点与邻居节点在t时刻对应元素Q值表中的Qt(si,aj)进行强化学习更新,得到下一时刻Q值表中Qt+1(si,aj),其中si∈S,aj∈A;
在自适应区间内,节点将针对其各个邻居节点采用自适应强化学习更新公式逐一进行Q-learning方法强化学习;
步骤3当前节点根据RSSI进行分区间处理:当前节点接收到邻居节点的接收信号强度值(RSSI)进行分区间处理,当RSSI值落入区间[a,b]则执行步骤4,进行自适应强化学习及状态预测;否则,执行步骤5,进行直接决策区间状态判断;
步骤4自适应区间内强化学习与联接状态稳定性判断:在MANET中,节点接收到某邻居节点的RSSI值处于区间[a,b]内时,该节点按照强化学习方法进行自适应强化学习与联接状态稳定性预测,并利用自适应奖励函数对Q值表进行更新,更新后得到下一传输时刻节点与其邻居节点的稳定联接状态预测选择;执行步骤7;
步骤5直接决策区间状态判断:节点接收到邻居节点的RSSI值处于区间[0,a)内,直接判决该邻居节点的联接状态为稳定联接状态s1,之后执行步骤6;节点接收到邻居节点的RSSI值处于区间(b,-∞)内,直接判决该邻居节点的联接状态为非稳定联接状态s2,之后执行步骤6;
步骤6对自适应区间边界进行自适应更新:直接决策区间的边界a和边界b同时也为自适应区间的上界a和下界b,将稳定联接临界归一化强度值dwin作为判定阈值,如果当前时刻节点接收到某邻居节点的RSSI,邻居节点的接收信号强度指示大于阈值判定为稳定联接状态s1;邻居节点的接收信号强度指示小于阈值判定为非稳定联接状态s2;当RSSI值处于直接决策区间时,根据如下状态判断公式进行判断:式中:s为当前节点与邻居节点的联接变量状态;将状态s作为下一传输时刻节点与邻居节点的联接变量状态预测,具体表示为 假设下一传输时刻当前节点接收到该邻居节点的接收信号强度为RSSI′,又根据上述状态判断公式判定下一时刻实际联接变量状态为s′;根据自适应区间边界的自适应更新公式对自适应区间上界a或自适应区间下界b进行更新;
步骤7生成分布式自适应的稳定联接拓扑:针对不同时刻,各个节点重复执行步骤3~步骤6,遍历所有节点,根据接收到邻居节点的RSSI值进行自适应区间内的强化学习与联接状态稳定性预测、直接决策区间状态判断、自适应边界更新,得到每一传输时刻节点与稳定联接状态邻居节点建立稳定拓扑联接关系,实现分布式自适应的稳定联接拓扑。
2.如权利要求1所述的一种基于自适应边界的分布式强化学习稳定拓扑生成方法,其特征在于:步骤4中所述的强化学习方法,具体实现过程包括有如下步骤:步骤4.1确定强化学习方法的整体结构:在区间[a,b]中将移动自组织网络中每个节点视为一个代理Agent,MANET的动态变化可以看作是一个分布式多Agent的协作系统;对于每一个分布式代理Agent假设其环境状态集为S,动作集为A,奖赏函数为 动作选择策略为π(si,aj);
步骤4.2判断每个代理Agent状态集S:状态集S由离散状态构成:
S={s1,s2}
式中:状态s1为根据当前接收到某邻居节点RSSI,节点与某邻居节点处于稳定联接状态;状态s2为根据当前接收到某邻居节点RSSI,与某邻居节点处于非稳定联接状态;
步骤4.3判断每个代理Agent的动作集A:每代理Agent采取的动作分为两个类型:预判为稳定联接状态;预判为非稳定联接状态;动作集A表示为:A={a1,a2}
式中:a1为预判稳定状态;a2为预判非稳定状态;
步骤4.4设置自适应奖励函数:设置奖励函数 奖励函数 中,si表示当前节点的状态;s′i表示执行动作后转移到的状态;aj表示在si状态下执行的动作;si→s′i表示前后时刻的实际状态转移关系; 表示奖励函数的自适应系数adaptive_reward,即执行当前节点执行当前动作类型的次数与及节点执行动作的总次数比值;强化学习过程中,奖励函数是代理Agent在状态si下采取行动aj预判状态,参照实际转移状态s′i后的奖惩值;表明在特定状态下采取动作决策的好坏程度;
步骤4.5确定代理Agent的动作选择策略:节点每次选择Q值表中对于邻居节点在si状态下对应的Q值最大的动作aj,选择策略公式为:式中:π(si,aj)为在状态si下选择对应Q值最大动作aj的动作选择策略;
步骤4.6采用自适应强化学习更新公式对Q值表进行更新:节点根据与各个邻居节点,在所处的联接状态si下采用策略π(si,aj)选择动作aj采用自适应强化学习更新公式进行Q值强化学习更新,得到下一时刻Q值Qt+1(si,aj),节点针对其各个邻居节点逐一进行Q-learning方法强化学习和更新。
3.如权利要求1所述的一种基于自适应边界的分布式强化学习稳定拓扑生成方法,其特征在于:步骤2及步骤4.6中提及的自适应强化学习更新公式,公式如下:式中:α为学习率,0<α<1;γ为奖励折扣因子,0<γ<1;aj为t时刻动作,si为t时刻状态,s′i∈S为si执行动作aj后转移到的状态;a′j∈A为Q值表中对于此邻居节点在si′状态上对应的最大Q值动作; 为在状态si下执行动作aj后转移到状态s′i得到的奖励值。
表示Q值表中对于此邻居节点在s′i状态上对应的最大Q值,它代表当前策略π(s′i,a′j)取得的新状态对Q值的最佳预期影响。
4.如权利要求1所述的一种基于自适应边界的分布式强化学习稳定拓扑生成方法,其特征在于,步骤6中所述的自适应区间边界的自适应更新公式,具体如下:式中:a为区间上边界;b为区间下边界;RSSI为邻居节点的接收信号强度指示值;s′为下一时刻该节点与邻居节点的实际联接状态;为下一时刻节点与邻居节点联接状态的预测;设定adaptive_rate为自适应边界调整的比例系数,即当前节点预测的下一传输时刻的联接状态预测出错次数与预测总次数的比值;若 a<RSSI且adaptive_rate大于0.1时,则调整自适应边界a=RSSI;若 b>RSSI且adaptive_rate大于0.1时,则调整自适应边界b=RSSI;若 强化学习区间自适应边界保持不变。
5.如权利要求2所述的一种基于自适应边界的分布式强化学习稳定拓扑生成方法,其特征在于,步骤4.4中所述的奖励函数,是根据节点在网络中的运动状态分析得到的,奖励函数的定义式为:上式中 表示状态si下采取动作aj,状态由si转移到状态s′i;式中 在 条件或 条件下,其奖励值 或 为-5;同理可得其它条件的奖励值;自适应奖励值系数adaptive_reward为 其中 表示从当前状态si下采取动作aj,状态由si转移到状态s′i的次数;其中Tcount表示采取动作的总次数。