利索能及
我要发布
收藏
专利号: 2023110056731
申请人: 中国矿业大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-10-14
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于DVS的汽车座舱手势识别系统,包括依次连接的感知层、决策层和执行层,其特征在于:所述感知层由DVS组成;所述决策层由算法处理模块及输出模块组成;所述执行层由反馈模块组成;

所述感知层的DVS装配在车舱内,以微秒级时间分辨率捕捉驾驶员或乘客的手势动作,并生成时间相关事件,所述事件携带事件发现的时间戳和空间位置信息,所述DVS用于接收所述事件,对时间进行过滤、聚类和排序以重建手势动作的时间序列;

所述决策层接收感知层DVS采集的手势信号通过决策层算法处理和信号输出至执行层,所述算法处理模块结合深度信息和三维手部骨架信息特征,通过MobileNetV3与LSTM进行多模态融合;

所述输出模块通过算法校验、信号分析、模型验证来处理算法处理模块输出的信息,并将信息输入至执行层;

其中,所述输出模块包括以下步骤:

S1、DVS手势库构建:根据车载功能要求和交互习惯收集各类三维手势数据,构建三维手势库,每个手势对应一种车辆控制操作;

S2、手势匹配:使用LSTM与MobilenetV3的融合模型对采集的三维手势图像序列进行手势匹配,与手势库中的各个手势模板进行匹配,获得最匹配的手势类别和匹配度;

S3、手势过滤:基于三维手势的匹配度设定阈值,过滤掉匹配度较低的手势,只选择匹配度高于阈值的手势进行后续控制操作;

S4、控制指令生成:根据与输入三维手势最匹配的手势模板,生成相应的车辆控制指令,如最匹配的手势模板对应的操作为“打开左前车门窗”,则生成“打开左前车门窗”的控制指令;

S5、场景判断:判断当前车辆的驾驶场景,若最匹配的手势操作与当前场景不匹配,则不生成控制指令,给出警示;

S6、视觉反馈:在车载显示屏上显示最匹配的手势模板,并展示对应车载功能的执行效果,给驾驶员适当的视觉反馈;

S7、操作记录:记录驾驶员的三维手势操作过程和系统的反馈过程,用于手势库的增量学习和模板匹配的优化;

S8、匹配优化:使用增量学习方法不断优化三维手势与模板之间的匹配模型,提高手势匹配的准确性和鲁棒性,为实现高性能的人机交互提供基础;

所述执行层的反馈模块接收决策层输出的命令信号,并执行命令,输出方式有空调风量、媒体音量、车窗升降、中控屏翻页;

其中,所述反馈模块包括以下步骤:

S1、视觉反馈:在车载显示屏上显示最匹配的手势模板和相应的车载功能执行效果,给驾驶员适当的视觉反馈,方便手势进行修正或重新输入;

S2、语音反馈:系统通过语音方式告知驾驶员最匹配的手势操作和执行的车载控制指令,进行必要的语音提醒和交互;

S3、功能执行:车载系统接收到映射生成的控制指令后,控制相应的车载功能模块进行操作执行;

S4、匹配结果:系统告知驾驶员三维手势与手势模板之间的匹配结果,包括最匹配的手势类别及匹配度;

S5、报错提醒:若系统检测到三维手势与当前驾驶场景不匹配而未生成控制指令,会通过视觉语音方式给出报错提醒,提示驾驶员重新输入手势;

S6、操作记录:系统记录下整个三维手势操作过程和反馈过程,供后续分析交互效果和提高体验;

S7、用户评价:系统向驾驶员征询对三维手势交互效果的评价反馈,并据此选择是否需要对匹配模型和交互规则进行更新以实现个性化优化;

所述反馈模块具体包括:空调、音量、中控屏、车窗等在接收到命令信号时会做出不同的响应,其中中控屏幕会根据手势页面滚动、翻页、隔空点击等响应;音量会根据空间坐标系z方向上拇指与食指间的距离长短进行音量大小的调节;车窗会根据手势的上下挥动上升或下降,前后挥动使得天窗开合或关闭;空调风量根据空间坐标系x方向上拇指与食指间的距离长短进行风量大小的调节;

所述反馈模块进行反馈输出包含以下手势与控制指令映射激活:

当食指与拇指触碰时,为媒体音量调节信号,拇指与食指之间距离的远近变化,与之输出的是着媒体音量的大小变化;

当手掌水平,除了拇指其余四指向下挥动呈上下挥掌动作,则车辆窗户随之下降,反之上升;

当手掌立起,向前向后呈挥掌动作时,车辆顶部天窗随之向前向后打开或关闭;当人机交互涉及车载屏幕时,则握拳并单一伸出食指的左右上下移动,都可以控制屏幕页面的左右翻页,上下内容的滑动,当食指关节出现较大角度变化,则在屏幕相应位置响应单击屏幕命令一次,当时间间隔小于0.5秒以内,连续出现两次单击命令则为屏幕的双击响应,屏幕进行双击操作一次;当出现握拳手势命令,则为用户自主判断行驶环境是否安全,车辆随即进入减速行驶状态。

2.一种基于DVS的汽车座舱手势识别方法,包括权利要求1所述的汽车座舱手势识别系统,其特征在于,所述手势识别方法基于多模态融合网络模型进行检测,该手势识别方法包括以下步骤:S1、通过DVS,实时捕捉用户的手势动作并生成手势序列帧图像,形成手势图像的事件序列,该时间序列作为网络的原始输入,进一步进行处理以提取时序和空间特征,需获取不同视角和模态的手势;

S2、手势关键点检测:在手势图像的时间序列上使用关键点检测模型OpenPose检测每一帧图像中的手势关键点,获得多视角的手势关键点的时间序列坐标,捕捉手势的细致动作特性和三维空间信息;

S3、手势图像的预处理:对采集的手势图像时间序列进行尺度归一化、图像旋转、噪声过滤、帧选取和模态Registration预处理;

S4、手势图像的空间特征提取:使用轻量级的MobilenetV3等网络对预处理后的手势图像时间序列的每帧图像进行特征提取;

S5、多模态时空特征网络融合;将step2和step4得到的多视角手势关键点时间序列和图像空间特征映射进行融合,构建手势的时空特征,作为LSTM网络的输入进行手势检测;

S6、检测结果的后处理:对LSTM的预测结果进行后处理,包括多模态特征映射、坐标映射、平滑处理和三维重建得到手势类别、多视角关键点时间序列及三维手势空间信息。