利索能及
我要发布
收藏
专利号: 2022104128297
申请人: 北方工业大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-10-14
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于强化学习和好奇心的迷宫机器人路径规划方法,其特征在于包括:(1)强化学习

采用Q‑learning,将节点作为状态,即S={Nk|k=1,2,3…n};奖励设置如下:c

其中,r为好奇心内在奖励;r为强化学习奖励;可选动作指相对于移动机器人第一次到达某一节点时,除回退动作之外的动作为可选动作;即,当下一节点无法转移到另一新节点,而只可回退到上一节点时,强化学习奖励r=‑100;

动作A={ai|i=1,2,3…p},分别为将机器人正面朝向转到地图的东,西,南,北方向;其中,Q值更新公式如下:Q(Nk,ai)=(1‑α)Q(Nk,ai)+α[r+maxQ(Nk+1,a′)]其中,Nk为某一节点;ai为当前节点下所执行的动作;Q(Nk,ai)为节点Nk下的动作ai的Q值;α为学习率设置为0.8;r为获得的强化学习奖励;Nk+1为下一节点,maxQ(Nk+1,a′)为下一节点中的各个动作的最大Q值;a′为下一节点最大Q值的动作;

(2)好奇心算法:

1、前向网络

采用BP网络,设有3个隐含层,输入层神经元数量为2个,3个隐含层神经元数量均为33个,输出层神经元数量为5个,每一层的激活函数均为logistic函数;BP网络的权值初始化为[0,1]随机数值;其输入为两个值分别为节点以及动作,即[Nk,ai];输出为五个值,即下一节点以及下一节点各个方向可通行情况,可通行数值接近1,不可通行为数值接近0;其损失函数如下:其中,其中 为联想记忆网络输出y′中的值其物理含义与BP网络输出相同;

2、联想记忆网络

联想记忆网络,用来记录在某一节点下选择某一动作所对应的下一节点以及下一节点的可通行情况;网络只有一层输入和一层输出,没有隐含层;

输入为1×m的矩阵, 其中m=n×p,n,p分别为节点个数和动作数;输入矩阵包含节点Nk以及动作ai信息,其中节点Nk由矩阵中的某p列表示;而在表示Nk的p列元素中,自左向右数第i个元素为1,且只有1个元素为1,用来表示动作ai;

由[Nk,ai]编码为 的公式如下:

j=p×(Nk‑1)+ai

根据上述公式得到第j列元素为1,进而得到编码后的矩阵 中只有一个元素为1,其余均为0,第j列元素为1则Nk及ai表达式如下:其中j为矩阵Mm的元素1所在列数;p为动作数;

输出为5个值,下一节点和移动机器人到达下一节点的四个方向的情况,即其中N′k+1为下一节点, 为下一节点各个方向可通行情况,可通行为数值1,不可通行为数值0;在进行动作选择时,仅选取当前节点数值为1的方向并执行动作;方向 和动作[a1,a2,a3,a4]是一一对应的;

联想记忆网络的初始权值Wlm为l×m的0矩阵,权值矩阵更新公式如下:其中y′为联想记忆网络的输出矩阵, 为联想记忆网络的输入矩阵;

3、内部奖励

内部奖励设置为前向网络和联想记忆网络的输出误差;好奇心奖励函数与损失函数计算过程相同;

c

r表示动作ai的好奇心奖励;有效的好奇心奖励才会被运用,好奇心奖励有效性判别与某一节点的好奇度 有关,好奇度公式如下:其中 为智能体在节点Nk传感器所检测到的四个方向的可通行情况,方向可通行则数值为1,方向有障碍物不可行则数值为0;maxQ(Nk+1,a)为节点Nk下的各个动作Qc值的最大Q值;r表示动作ai的好奇心奖励;

当 时,此节点的好奇度下降,此时动作的好奇心值记为无效;

(3)回溯强化

当智能体到达目的地时,则本轮探索结束;智能体根据联想记忆从终点出发,进行推理回溯,每个节点和相应的动作都不是得到相同的强化,而是按顺序递减;进行回溯强化时Q值更新公式如下:Q(Nk,ai)=(1‑α)Q(Nk,ai)+αmaxQ(Nk+1,a′)当连续两次进行回溯强化时,不存在好奇度大于1的节点,则不再进行迭代学习,程序结束。