利索能及
我要发布
收藏
专利号: 2020109753223
申请人: 浙江理工大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.基于认知网络的机器人避障方法,其特征在于:包括构造认知网络集,在机器人的感知空间中利用短时记忆、整合长时记忆对认知网络集进行发育学习,并采用动态进化方法在认知网络集中进行多样性搜索,扩展认知网络集的规模,寻找更合理的认知网络集来完成避障行动。

2.根据权利要求1所述的基于认知网络的机器人避障方法,其特征在于:具体包括以下步骤:步骤一、构造认知网络集:认知网络集包括若干个认知网络,认知网络包括感知层、处理层、推理层、思维层和行动层,层内和层间由若干节点连接而成,连接不存在权重;初始的认知网络集中只有一个认知网络,所述认知网络只有感知层、思维层和行动层;

步骤二、发育学习认知网络:对认知网络集中的每一个认知网络,利用感知层和处理层的短时记忆,整合长时记忆,构造推理层的推理节点以及观察空间;并根据环境输入构造和/或调整推理层的推理节点中的推理场景;

步骤三、推理和决策:对认知网络集中的每一个认知网络,思维层在观察空间内随机选择若干个可执行的假想动作,对每一个假想动作,结合最新观察值匹配最近似的推理场景,计算每个推理场景的平均评估值,并选择获得评估值最大的假想动作作为实际决策动作,输出给行动层,行动层根据实际决策动作完成避障行动;

步骤四、决策评估:对认知网络集中的每一个认知网络,计算每一个推理场景的准确度和评估值属性;

步骤五、动态进化:在认知网络集中进行多样性搜索,通过种群扩展的动态进化方法逐步构造、扩展和完善认知网络集的规模;

步骤六、回到步骤二,直到所有避障任务任务都完成。

3.根据权利要求2所述的基于认知网络的机器人避障方法,其特征在于:所述步骤一中的感知层用来接收外界输入,保存规整化数据,所述的外界输入包括对各个方向障碍物距离的感知输入、自身姿态的感知输入、自身动作的感知输入和外界奖励输入;处理层用来以感知层和处理层的其它节点作为输入并完成处理;推理层用来表征关于观察空间的知识,帮助动态认知网络作出最终决策;思维层用来作出决策;行动层根据决策动作控制机器人执行部件完成动作输出。

4.根据权利要求2所述的基于认知网络的机器人避障方法,其特征在于:所述步骤一中的处理层的处理节点包括:差值处理节点,用来计算任两个节点在当前时刻的输入值的差值;

均值处理节点,用来计算任意多个有限输入节点在当前时刻输入值的均值;

速率处理节点,用来计算任一个节点在t时刻和t-1时刻输入值的差值。

5.根据权利要求2所述的基于认知网络的机器人避障方法,其特征在于:所述步骤一中的推理层由推理节点构成,构成方法包括:设定认知网络有N个感知节点和M个处理节点,将所有感知节点和处理节点统一称为输入节点INPUTS,推理层的推理节点INF定义为:

C11(t-f1),C12(t-f2),...,C1p(t-fp)=>C21(t),C22(t),...,C2q(t);

其中C11,C12,...,C1p称为INF的前置条件输入节点,C21,C22,...,C2q称为INF的后置输入节点,Cij(t-fj)表示在输入节点i上附加的时间戳为t-fj,t为当前时刻,t-fj为当前时刻之前的某一时刻,这里i∈{1,2,...p},j∈{1,2,...q},t-fj

推理节点INF中的第k个推理场景为:

其中k∈{1,2,...,M}k∈{1,2,...,M},M

为INF中所有推理场景的数量, 分别为节点

C1i在t-fi时刻的值, 分别为节点C2j在t时

刻的值,t表示当前时刻,每个推理场景代表一个高斯分量,用uk表示推理场景k的高斯分量均值,εk表示推理场景k的高斯分量协方差矩阵,wk表示推理场景k的高斯分量权重;推理节点根据感知层和处理层的短时记忆数据更新混合高斯模型,当混合高斯模型趋于稳定时,构成观察空间的分布特征。

6.根据权利要求2所述的基于认知网络的机器人避障方法,其特征在于:所述步骤二中,发育学习认知网络具体包括以下步骤:

1)感知层接收和存储输入数据,处理层根据定义的计算完成对输入数据的处理;

2)对每一个推理节点INF:

C11(t-f1),C12(t-f2),...,C1p(t-fp)=>C21(t),C22(t),...,C2q(t),向量C11(t-f1),C12(t-f2),...,C1p(t-fp),C21(t),C22(t),...,C2q(t)的值,称为INF的当前输入值VINF(t);INF内部保留T个历史输入值,由于这些输入值是未经调整前的原始输入,因此称为短时记忆,T称为短时记忆容量;

3)若推理节点INF内部没有任何推理场景时,生成一个新的推理场景,新的推理场景激活数量设置为1,其高斯分量以输入VINF(t)为均值,以单位阵为协方差,高斯分量的权重设置为1结束;

4)计算VINF(t)对已有的推理场景的高斯分量函数值,取其中的最大值,令k为最大值对应的推理场景,且当最大值大于阈值0.85时,说明输入与k的马氏距离比较接近,则可以将该输入归属到k,令k的激活数量值加1,并相应地调整该高斯分量的均值和方差;调整方法如下:其中uk为推理场景的高斯分量均值,Nk为推理场景k的激活数量值,wk为推理场景k的高斯分量权重;∑k为推理节点k的高斯分量协方差矩阵,VSk={VINF(t-T),VINF(t-T+1),...,VINF(t)},表示过去T时间中归属第k的高斯分量的输入值向量集。len(VSk)为该输入值向量集的长度,avg(VSk)为该输入向量集的均值,’表示矩阵的转置运算;

5)若计算VINF(t)对已有的推理场景的高斯分量函数值,其中的最大值小于阈值0.85时,则构造一个新的推理节点,新的推理节点的高斯分量均值为VINF(t),以单位阵为协方差的高斯分量,激活数量设置为1,形成逐步稳定固化的长时记忆;

6)重新计算所有推理场景的高斯分量权重,计算方法为:

wk为推理场景k的高斯分量权重,Nk为推理场景k的激活数量值,M为所有推理场景的数量。

7.根据权利要求2所述的基于认知网络的机器人避障方法,其特征在于:所述步骤三中,推理和决策具体包括以下步骤:

1)按照均匀分布生成R个随机行动向量,记为{A1,A2,...,AR};

2)取得所有推理节点中推理场景的准确度大于0.75的推理场景,构成候选推理场景集;

3)若候选推理场景集为空,则从R个随机行动向量中随机选择一个作为决策动作输出,决策过程结束;

4)若候选推理场景不为空,对R个随机行动向量集中的每一个向量Az=(a1,a2,...,am),m为向量长度,Z∈{1,2,...,R},采用前向匹配技术计算该动作向量的评估值;

前向匹配技术计算过程如下:

(1)将当前感知层的输入中的自身动作感知输入替换为Az;

(2)对每一个推理节点INF:

C11(t-f1),C12(t-f2),...,C1p(t-fp)=>C21(t),C22(t),...,C2q(t),用随机向量Az替换,得到C11(t-f1),C12(t-f2),...,C1p(t-fp),C21(t),C22(t),...,C2q(t)的值,称为INF的当前输入值V′INF(t);

(3)计算VINF(t)对候选推理场景集的高斯分量函数值,若计算值小于等于阈值0.85,则将该推理场景从候选推理场景集中移除;

(4)若候选推理场景集空,则设置动作Az的评估值为0;否则取候选推理场景集中所有推理场景的评估值的均值为Az的评估值;

5)若R个随机行动向量{A1,A2,...,AR}的评估值都一样,则从中随机选择一个作为决策动作输出,否则取评估值最大的随机向量作为决策动作输出;

6)向行动层输出行动向量,记录所选择的行动向量A及对应的选推理场景集IS(A),以及行动后感知层得到的外界奖励值reward,并把它们加入到行动链集合EA中:EA={,,...,}。

8.根据权利要求7所述的基于认知网络的机器人避障方法,其特征在于:所述步骤四中,决策评估的具体方法包括以下步骤:

1)对每一个推理场景k,计算准确度如下:

其中acc(k)表示推理场景k的准确度,Nk表示体力场景k的激

活数量,SIM(k)为与k的前置条件输入值部分相同的推理场景集合,len为取集合元素数量函数;

2)对于行动链集合EA,若rewardt小于0,则对集合中的每一个IS(At-h),h∈{1,2,...,T},定义其评估值增量为r=e-1*h×rewardt,

若IS(At-h)不空,则对IS(At-h)中的每一个推理场景k,令其新的评估值为原评估值加r。

9.根据权利要求2所述的基于认知网络的机器人避障方法,其特征在于:所述步骤五中,动态进化方法包括以下步骤:

1)将初始的认知网络加入到认知网络集中;

2)将认知网络中的无效推理节点置入无效推理节点集合,其中无效推理节点是指推理节点可靠度小于阈值0.65的推理节点;

3)若认知网络集中的认知网络数量大于阈值,则启动淘汰过程,计算认知网络中所有推理节点的可靠度的均值作为认知网络的可靠度,按照可靠度从大到小对所有认知网络进行排序,并淘汰排在后面的百分比阈值的认知网络;

4)对认知网络集中剩余的认知网络进行变异操作,生成新认知网络;

5)将新认知网络加入到认知网络集中。

10.根据权利要求9所述的基于认知网络的机器人避障方法,其特征在于:所述变异操作包括以下步骤:

1)对认知网络集中的每一个认知网络进行完全复制;

2)对复制后的认知网络以预定的概率参数随机选择处理节点进行处理操作,添加处理节点到复制后的认知网络的处理层,所述概率参数取0.25-0.75;

3)对复制后的认知网络以均匀分布随机选择感知层节点和处理层节点,为每个节点随机生成时间戳,得到新的推理节点,加入到复制后的认知网络的推理层中,生成新认知网络。