买专利、卖专利、专利购买、专利交易、专利出售、高企申报-基于认知网络的机器人避障方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

基于认知网络的机器人避障方法

面议

专利号： 2020109753223

申请人：浙江理工大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-06-16

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.基于认知网络的机器人避障方法，其特征在于：包括构造认知网络集，在机器人的感知空间中利用短时记忆、整合长时记忆对认知网络集进行发育学习，并采用动态进化方法在认知网络集中进行多样性搜索，扩展认知网络集的规模，寻找更合理的认知网络集来完成避障行动。

2.根据权利要求1所述的基于认知网络的机器人避障方法，其特征在于：具体包括以下步骤：步骤一、构造认知网络集：认知网络集包括若干个认知网络，认知网络包括感知层、处理层、推理层、思维层和行动层，层内和层间由若干节点连接而成，连接不存在权重；初始的认知网络集中只有一个认知网络，所述认知网络只有感知层、思维层和行动层；

步骤二、发育学习认知网络：对认知网络集中的每一个认知网络，利用感知层和处理层的短时记忆，整合长时记忆，构造推理层的推理节点以及观察空间；并根据环境输入构造和/或调整推理层的推理节点中的推理场景；

步骤三、推理和决策：对认知网络集中的每一个认知网络，思维层在观察空间内随机选择若干个可执行的假想动作，对每一个假想动作，结合最新观察值匹配最近似的推理场景，计算每个推理场景的平均评估值，并选择获得评估值最大的假想动作作为实际决策动作，输出给行动层，行动层根据实际决策动作完成避障行动；

步骤四、决策评估：对认知网络集中的每一个认知网络，计算每一个推理场景的准确度和评估值属性；

步骤五、动态进化：在认知网络集中进行多样性搜索，通过种群扩展的动态进化方法逐步构造、扩展和完善认知网络集的规模；

步骤六、回到步骤二，直到所有避障任务任务都完成。

3.根据权利要求2所述的基于认知网络的机器人避障方法，其特征在于：所述步骤一中的感知层用来接收外界输入，保存规整化数据，所述的外界输入包括对各个方向障碍物距离的感知输入、自身姿态的感知输入、自身动作的感知输入和外界奖励输入；处理层用来以感知层和处理层的其它节点作为输入并完成处理；推理层用来表征关于观察空间的知识，帮助动态认知网络作出最终决策；思维层用来作出决策；行动层根据决策动作控制机器人执行部件完成动作输出。

4.根据权利要求2所述的基于认知网络的机器人避障方法，其特征在于：所述步骤一中的处理层的处理节点包括：差值处理节点，用来计算任两个节点在当前时刻的输入值的差值；

均值处理节点，用来计算任意多个有限输入节点在当前时刻输入值的均值；

速率处理节点，用来计算任一个节点在t时刻和t-1时刻输入值的差值。

5.根据权利要求2所述的基于认知网络的机器人避障方法，其特征在于：所述步骤一中的推理层由推理节点构成，构成方法包括：设定认知网络有N个感知节点和M个处理节点，将所有感知节点和处理节点统一称为输入节点INPUTS，推理层的推理节点INF定义为:

C11(t-f1),C12(t-f2),...,C1p(t-fp)＝>C21(t),C22(t),...,C2q(t)；

其中C11,C12,...,C1p称为INF的前置条件输入节点，C21,C22,...,C2q称为INF的后置输入节点，Cij(t-fj)表示在输入节点i上附加的时间戳为t-fj，t为当前时刻，t-fj为当前时刻之前的某一时刻，这里i∈{1,2,...p},j∈{1,2,...q}，t-fj

推理节点INF中的第k个推理场景为：

其中k∈{1,2,...,M}k∈{1,2,...,M},M

为INF中所有推理场景的数量，分别为节点

C1i在t-fi时刻的值，分别为节点C2j在t时

刻的值，t表示当前时刻，每个推理场景代表一个高斯分量，用uk表示推理场景k的高斯分量均值，εk表示推理场景k的高斯分量协方差矩阵，wk表示推理场景k的高斯分量权重；推理节点根据感知层和处理层的短时记忆数据更新混合高斯模型，当混合高斯模型趋于稳定时，构成观察空间的分布特征。

6.根据权利要求2所述的基于认知网络的机器人避障方法，其特征在于：所述步骤二中，发育学习认知网络具体包括以下步骤：

1)感知层接收和存储输入数据，处理层根据定义的计算完成对输入数据的处理；

2)对每一个推理节点INF：

C11(t-f1),C12(t-f2),...,C1p(t-fp)＝>C21(t),C22(t),...,C2q(t)，向量C11(t-f1),C12(t-f2),...,C1p(t-fp),C21(t),C22(t),...,C2q(t)的值，称为INF的当前输入值VINF(t)；INF内部保留T个历史输入值，由于这些输入值是未经调整前的原始输入，因此称为短时记忆，T称为短时记忆容量；

3)若推理节点INF内部没有任何推理场景时，生成一个新的推理场景，新的推理场景激活数量设置为1，其高斯分量以输入VINF(t)为均值，以单位阵为协方差，高斯分量的权重设置为1结束；

4)计算VINF(t)对已有的推理场景的高斯分量函数值，取其中的最大值，令k为最大值对应的推理场景，且当最大值大于阈值0.85时，说明输入与k的马氏距离比较接近，则可以将该输入归属到k，令k的激活数量值加1，并相应地调整该高斯分量的均值和方差；调整方法如下：其中uk为推理场景的高斯分量均值，Nk为推理场景k的激活数量值，wk为推理场景k的高斯分量权重；∑k为推理节点k的高斯分量协方差矩阵，VSk＝{VINF(t-T),VINF(t-T+1),...,VINF(t)},表示过去T时间中归属第k的高斯分量的输入值向量集。len(VSk)为该输入值向量集的长度，avg(VSk)为该输入向量集的均值，’表示矩阵的转置运算；

5)若计算VINF(t)对已有的推理场景的高斯分量函数值，其中的最大值小于阈值0.85时，则构造一个新的推理节点，新的推理节点的高斯分量均值为VINF(t)，以单位阵为协方差的高斯分量，激活数量设置为1，形成逐步稳定固化的长时记忆；

6)重新计算所有推理场景的高斯分量权重，计算方法为：

wk为推理场景k的高斯分量权重，Nk为推理场景k的激活数量值，M为所有推理场景的数量。

7.根据权利要求2所述的基于认知网络的机器人避障方法，其特征在于：所述步骤三中，推理和决策具体包括以下步骤：

1)按照均匀分布生成R个随机行动向量，记为{A1,A2,...,AR}；

2)取得所有推理节点中推理场景的准确度大于0.75的推理场景，构成候选推理场景集；

3)若候选推理场景集为空，则从R个随机行动向量中随机选择一个作为决策动作输出，决策过程结束；

4)若候选推理场景不为空，对R个随机行动向量集中的每一个向量Az＝(a1,a2,...,am)，m为向量长度，Z∈{1,2,...,R}，采用前向匹配技术计算该动作向量的评估值；

前向匹配技术计算过程如下：

(1)将当前感知层的输入中的自身动作感知输入替换为Az；

(2)对每一个推理节点INF：

C11(t-f1),C12(t-f2),...,C1p(t-fp)＝>C21(t),C22(t),...,C2q(t)，用随机向量Az替换，得到C11(t-f1),C12(t-f2),...,C1p(t-fp),C21(t),C22(t),...,C2q(t)的值，称为INF的当前输入值V′INF(t)；

(3)计算VINF(t)对候选推理场景集的高斯分量函数值，若计算值小于等于阈值0.85，则将该推理场景从候选推理场景集中移除；

(4)若候选推理场景集空，则设置动作Az的评估值为0；否则取候选推理场景集中所有推理场景的评估值的均值为Az的评估值；

5)若R个随机行动向量{A1,A2,...,AR}的评估值都一样，则从中随机选择一个作为决策动作输出，否则取评估值最大的随机向量作为决策动作输出；

6)向行动层输出行动向量，记录所选择的行动向量A及对应的选推理场景集IS(A)，以及行动后感知层得到的外界奖励值reward，并把它们加入到行动链集合EA中:EA＝{,,...,}。

8.根据权利要求7所述的基于认知网络的机器人避障方法，其特征在于：所述步骤四中，决策评估的具体方法包括以下步骤：

1)对每一个推理场景k，计算准确度如下：

其中acc(k)表示推理场景k的准确度，Nk表示体力场景k的激

活数量，SIM(k)为与k的前置条件输入值部分相同的推理场景集合，len为取集合元素数量函数；

2)对于行动链集合EA,若rewardt小于0，则对集合中的每一个IS(At-h),h∈{1,2,...,T}，定义其评估值增量为r＝e-1*h×rewardt,

若IS(At-h)不空，则对IS(At-h)中的每一个推理场景k，令其新的评估值为原评估值加r。

9.根据权利要求2所述的基于认知网络的机器人避障方法，其特征在于：所述步骤五中，动态进化方法包括以下步骤：

1)将初始的认知网络加入到认知网络集中；