利索能及
我要发布
收藏
专利号: 2021112212716
申请人: 电子科技大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-01
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于深度学习的单目视觉里程计位姿优化与误差修正方法,其特征在于,包括以下步骤:S1、获取图像数据,并计算对应的光流图像序列;

S2、采用固定步长滑动窗口对光流图片序列进行分割,得到若干分割后的输入序列数据,并利用编码器获得各输入序列数据的高维度运动特征;

S3、将高维度运动特征输入人工神经网络,得到运动的时序关系和运动的局部上下文信息;

S4、将步骤S3的结果输入位姿变换相似性计算模块进行运动相似性建模,得到运动时序关系的运动相关性特征和运动的局部上下文信息的运动相关性特征;并基于运动相关性特征利用注意力机制指导优化位姿特征,得到运动相似性提纯后的运动特征;具体方法为:根据公式:

1×1

Xt″=f ([Xt′,Ht′])

得到t时刻输出的优化位姿特征Xt″,即通过运动相似性提纯的运动特征;其中Xt′为基于运动相似性通过注意力机制指导下提纯后的t时刻的运动特征,exp(·)为以自然对数为底的对数函数,S(·)为余弦相似度函数,Xt‑1为t‑1时刻人工神经网络提取的运动特征,Xt为t时刻人工神经网络提取的运动特征,即运动的局部上下文信息的运动相关性特征,W为运动特征的向量维度,Ht′为基于运动相似性通过注意力机制指导下提纯后的t时刻的运动局部上下文信息,Hn为人工神经网络最后一层长短时记忆网络的隐藏单元状态中存储的运

1×1

动的局部上下文信息,即运动时序关系的运动相关性特征,f (·)为一层卷积核尺寸为1×1的卷积层,[Xt′,Ht′]为对提纯后的运动特征和提纯后的运动局部上下文信息的拼接过程;

S5、将通过运动相似性提纯的运动特征输入位姿修正预测网络,进行位姿优化和误差修正。

2.根据权利要求1所述的基于深度学习的单目视觉里程计位姿优化与误差修正方法,其特征在于,步骤S1的具体方法为:S1‑1、设置单目视觉传感器的采样频率,并采样得到三通道彩色RGB图像序列;

S1‑2、根据公式Flot=F(It‑1,It)计算三通道彩色RGB图像序列的光流图像序列;其中Flot为t时刻的光流图像,F(·)为光流计算公式,It‑1为t‑1时刻的三通道彩色RGB图像,以及It为t时刻的三通道彩色RGB图像。

3.根据权利要求2所述的基于深度学习的单目视觉里程计位姿优化与误差修正方法,其特征在于:单目视觉传感器的采样频率设置为20Hz;三通道彩色RGB图像的数据维度为(1226,370,3),光流图像的数据维度为(1226,370,2);每两张三通道彩色RGB图像帧对应计算得到一张对应的光流图像帧。

4.根据权利要求1所述的基于深度学习的单目视觉里程计位姿优化与误差修正方法,其特征在于,步骤S2中得到若干分割后的输入序列数据的具体方法为:利用长度为9且步长为9的滑动窗口对光流图像序列进行分割,得到长度为9的输入序列数据;其中每个输入序列数据均为四维张量数据,且维度为(9,1226,370,2),包含滑动窗口长度下光流图像在三个维度下的数据。

5.根据权利要求1所述的基于深度学习的单目视觉里程计位姿优化与误差修正方法,其特征在于,步骤S3中的具体方法为:将高维度运动特征输入包括两层串联的长短时记忆网络的人工神经网络,并根据公式:it=σ(ωixxt+ωihht‑1+bi)

gt=tanh(ωgxxt+ωghht‑1+bg)

ft=σ(ωfxxt+ωfhht‑1+bf)

ct=ft⊙ct‑1+it⊙gt

ot=σ(ωoxxt+ωohht‑1+bo)

ht=ot⊙tanh(ct‑1)

得到运动的局部上下文信息ht,即t时刻的隐藏单元状态,和运动的时序关系ot,即长短时记忆网络在t时刻的输出;其中it为长短时记忆网络t时刻的输入门状态,σ(·)为sigmoid激活函数,ωix为输入数据的权重,xt为t时刻的输入状态,ωih为输入数据对应隐藏单元的权重,ht‑1为t‑1时刻的隐藏单元状态,bi为输入数据对应的偏置,gt为t时刻的输入数据候选信息,tanh(·)为激活函数,ωgx为输入数据候选信息的权重,ωgh为输入数据候选信息对应隐藏单元的权重,bg为输入数据候选信息对应的偏置,ft为t时刻的遗忘门状态,ωfx为遗忘门状态的权重,ωfh为遗忘门状态对应隐藏单元的权重,bf为遗忘门状态对应的偏置,ct为t时刻的神经元状态,ct‑1为t‑1时刻的神经元状态,ωox为输出门状态的权重,ωoh为输出门状态对应隐藏单元的权重,bo为输出门状态对应的偏置;⊙为向量的哈达玛积;

其中最后一层长短时记忆网络的输出为运动的时序关系,维度为(1,1024),两层长短时记忆网络的隐藏单元状态中存储的是运动的局部上下文信息,维度为(2,1024)。

6.根据权利要求1所述的基于深度学习的单目视觉里程计位姿优化与误差修正方法,其特征在于,步骤S5中的位姿修正预测网络包括依次连接的第一长短时记忆网络、第二长短时记忆网络、第一全连接层和第二全连接层;其中两个长短时记忆网络的输出维度均为

1024;第一全连接层的神经元个数为128,包括激活函数;第二全连接层的神经元个数为6,无激活函数。