利索能及
我要发布
收藏
专利号: 2025105250779
申请人: 南昌工程学院
专利类型:发明专利
专利状态:已下证
更新日期:2026-05-14
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种用于自动驾驶的视觉时空行人穿行意图预测方法,其特征在于,包括以下步骤:S1,提取车载摄像头拍摄视频中行人运动的时间特征,输入双向LSTM网络,输出时间上下文编码向量;

S2,将行人的姿态特征进行最大池化,将场景语义特征进行平均池化,生成多尺度空间特征图,构建行人姿态与场景的空间金字塔模型;

S3,对时间上下文编码向量进行时间维度下采样,提取不同时间粒度的运动特征,生成多粒度时间编码向量,构建行人运动轨迹与速度的时间金字塔模型;

S4,对空间金字塔模型和时间金字塔模型的每个层级特征分别进行加权;将加权后的空间特征和时间特征进行拼接,形成拼接后的时空特征向量;对拼接后的特征向量按层级进行求和,输出融合后的时空特征向量;

S5,建立深度可分离卷积的分类网络,输入融合后的时空特征向量,输出行人穿行意图概率值。

2.根据权利要求1所述的一种用于自动驾驶的视觉时空行人穿行意图预测方法,其特征在于,所述时间特征包括长时缓变特征和/或短时突变特征,所述长时缓变特征包括行人运动时的瞬时速度、加速度和运动方向角,所述短时突变特征包括行人运动时的突然转向和突然加速。

3.根据权利要求2所述的一种用于自动驾驶的视觉时空行人穿行意图预测方法,其特征在于,通过下述方法提取时间特征:S101,设置一个长度为5帧的滑动时间窗口;

S102,从车载摄像头拍摄的视频中提取数量≧20帧的连续帧数据;

S103,处理连续帧数据中的每一帧图像,实时定位行人边界框;

S104,对行人边界框中心点进行卡尔曼滤波跟踪,生成平滑的行人运动轨迹序列;

S105,以车辆坐标系为参考坐标系,计算行人运动轨迹的瞬时速度、加速度及运动方向角,建立长时缓变特征;

S106,以车辆坐标系为参考坐标系,计算行人运动轨迹的瞬时速度、运动方向角以及相邻轨迹点之间的角度变化和速度变化,并将捕捉到的特征变化作为短时突变特征,用于后续的行人穿行意图预测;根据行人正常行走角度设定角度变化阈值,行人正常行走角度变化超过设定的阈值判定为行人突然转向;根据行人正常行走速度设定角度变化阈值,行人正常行走速度变化超过设定的阈值判定为行人突然加速。

4.根据权利要求3所述的一种用于自动驾驶的视觉时空行人穿行意图预测方法,其特征在于,行人的姿态特征包括行人关键点坐标、肢体角度向量、头部朝向角向量;场景语义特征至少包括斑马线标识、人行道标识、机动车道标识、交通灯状态中的一种。

5.根据权利要求4所述的一种用于自动驾驶的视觉时空行人穿行意图预测方法,其特征在于,通过YOLOv5s‑Tiny模型对边界框内的行人区域进行自适应裁剪与归一化处理,生成具有固定尺寸的ROI图像序列;通过MobileNetV3 Small网络对ROI图像序列进行语义分割,提取行人的语义特征;通过Lite‑HRNet网络提取行人的关键点坐标。

6.根据权利要求1所述的一种用于自动驾驶的视觉时空行人穿行意图预测方法,其特征在于,建立空间注意力模型和时间注意力模型来分别处理空间特征和时间特征,输出空间注意力权重和时间注意力权重;

在空间金字塔模型的不同层级加入空间权重,在时间金字塔模型的不同层级加入时间权重,对空间特征和时间特征进行拼接,输出融合后且增强的时空特征向量。

7.根据权利要求6所述的一种用于自动驾驶的视觉时空行人穿行意图预测方法,其特征在于,空间注意力模型的输入为多尺度空间特征图,输出为空间注意力权重,空间注意力模型公式为:式中, 为空间注意力权重;为sigmoid函数; 与 为学习参数; 为全局平均池化;为空间特征;

时间注意力模型的输入为多粒度时间编码向量,输出为时间注意力权重,时间注意力模型公式为:式中, 为时间注意力权重;为sigmoid函数; 为学习参数; 为历史隐藏状态;

为当前帧特征。

8.根据权利要求1所述的一种用于自动驾驶的视觉时空行人穿行意图预测方法,其特征在于,对空间和时间特征进行拼接包括以下步骤:加权后的空间金字塔各层级特征按通道维度拼接在一起,形成一个融合后的空间特征向量,表达式为:式中, 为融合后的空间特征向量; 为第n层级的空间注意力权重; 为第n层级的空间特征;n为空间金字塔的层级数量;

加权后的时间金字塔各层级特征按通道维度拼接在一起,形成一个融合后的时间特征向量,表达式为:式中, 为融合后的时间特征向量; 为第m层级的时间注意力权重; 为第m层级的时间特征;m为时间金字塔的层级数量;

融合后的空间特征向量和时间特征向量按通道维度拼接在一起,形成融合后的时空特征向量,表达式为:式中, 为融合后的时空特征向量; 为融合后的空间特征向量; 为融合后的时间特征向量。

9.根据权利要求1所述的一种用于自动驾驶的视觉时空行人穿行意图预测方法,其特征在于,建立深度可分离卷积的分类网络包括以下步骤:a.深度卷积:对输入数据的每个通道独立应用深度卷积操作,每个输入通道使用一个单独的3×3的卷积核进行卷积,深度卷积生成的输出通道数与输入通道数相同,每个通道包含该通道的卷积结果;

b.逐点卷积:对深度卷积生成的特征图应用逐点卷积操作,逐点卷积使用1×1的卷积核,在每个位置上对所有通道进行卷积操作,对特征图的每个像素点进行线性组合,将深度卷积生成的各个通道特征进行混合;

c.在逐点卷积之后,应用非线性激活函数ReLU函数;

d.进行平均池化。

10.根据权利要求1所述的一种用于自动驾驶的视觉时空行人穿行意图预测方法,其特征在于,设置一个长度为5帧的滑动时间窗口,对连续5帧的预测概率进行滑动窗口加权平均,并通过下述公式进行置信度计算:式中,为置信度;为滑动窗口大小; 为滑动窗口内第i帧的预测概率值;为窗口内概率均值。