买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于多传感器融合视觉的室内姿势检测方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于多传感器融合视觉的室内姿势检测方法

面议

专利号： 2021109847422

申请人：燕山大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-06-16

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于多传感器融合视觉的室内姿势检测方法，其特征在于，包括如下步骤：

S1，搭建和训练网络模型；

S1中包括如下步骤：

S11，数据集制作：数据集的制作中数据采集分为两部分：一部分是图像的采集，另一部分是腰带式辅助检测装置的数据采集；两部分数据的采集是在同时记录的，即在拍照瞬间记录腰带式辅助检测装置的输出值，偏移x，y，z轴的角度和垂直地面的加速度，使用labelImg工具给图片标上标签，并生成xml文件，将腰带式辅助检测装置的输出值，偏离x，y，z的角度和垂直地面的加速度添加到xml文件中，每一张图片一个xml文件，数据集中一共有5个分类：站立、行走、下蹲、躺下和跌倒，数据集中包含光照充足时的RGB图像，和光照昏暗时的红外图像，这样训练出来的网络模型在光照昏暗条件下很好的实时识别和跟踪患者并收集数据；

S12，搭建网络模型；对图像分类和检测，采用DarkNet53作为backbone对图像进行特征提取，使用改进后的特征金字塔结构得到的3个不同尺度的输出特征层，分别对3个输出层进行处理，从而实现多尺寸特征图检测，随着图像卷积计算次数越来越多，网络变得更深，图像的特征会越来越抽象，细节信息丢失就会变多，改进后的特征金字塔添加注意力机制，使用浅层的特征来影响深层的特征层，使得抽象的特征能够更多的注意患者所在的特征层通道上，这样使用更多的细节信息来提高检测精度，改进后的特征金字塔结构在特征提取时使用深度可分离卷积，可减少参数个数，提高网络速度；改进后的注意力机制，Input1是浅层特征维度是batch_size,c,h,w，通过卷积、池化、两个全连接层之后生成一个维度为batch_size,2c,1,1的权重向量；Input2是深层特征维度是batch_size,2c,h/2,w/2，会和浅层特征生成的权重向量相乘，每个通道与相应通道的数据相乘，得到新的特征层维度为batch_size,2c,h/2,w/2；网络最终输出3个不同尺度的特征层，每个特征层都包括预测边界框的坐标修正参数信息、类别置信度、类别和概率，通过解码计算获得图像的最终的预测结果，预测结果包括检测出的患者的Bounding box坐标、患者的姿势类别和概率，特征金字塔输出的修正参数包括边界框的中心点的坐标和宽高，网络会为每一个框预测4个参数tx、ty、tw、th，如果真实框距离图像左上角的位移是cx，cy，且对应的先验框的宽和高为pw、ph，则网络的预测值bx、by、bw、bh为：bx＝σ(tx)+cx (1)

by＝σ(ty)+cy (2)

将特征层中的类别置信度，经过sigmoid函数转换输出，sigmoid函数会将输入x转化到

0‑1范围内；后将预测框与真实框的重合程度较高的框的值设为1，即这个框是正样本yt＝

1；将重合程度较低的框的值设为0，这个框是负样本yt＝0；sigmoid函数的公式如下：

对于腰带式辅助检测装置输出的数据进行分类训练的模型是使用普通的多分类逻辑回归，输入是y＝[y1,y2,y3,y4]，输出是5分类，类别是站立、行走、下蹲、躺下和跌倒；

S13，开始训练模型，加载数据集及数据集的处理：对模型的训练，使用公开数据集对图像部分的模型进行整体训练，然后冻结backbone部分之后，使用自己制作的数据集对图像部分的模型中的特征金字塔部分和多分类逻辑回归分类网络进行训练，数据集处理是将xml文件中的信息读取出来，并对图片进行标准化和尺寸变换；获取多分类逻辑回归的输出，将多分类逻辑回归的输出作为图像计算损失时的权重，图像识别的网络模型首先会对图像进行识别得出分类，由于对相似类别不能很好地识别，引进逻辑回归的输出作为5个辅助参数，多分类逻辑回归模型获得的是5个类别的概率，将概率处理后和图像识别的网络输出的概率进行融合得到最终的预测类别结果，该过程有利于识别相似动作；

S14，计算训练损失，反向传播，更新梯度，获得最优权重:使用的损失函数分别是Bounding box的坐标回归参数和类别的损失函数时使用的是二值交叉熵计算损失，公式如下：BCELoss＝ytlogyp‑(1‑yt)log(1‑logyp) (6)

姿势类别的置信度损失计算公式如下：

Loss＝ytlog(yp)‑(1‑yt)log(1‑log(yp) (8)

其中,yt表示真实值，yp表示预测值，ylog是逻辑回归输出的预测概率，ylog作为超参数使用；最终的损失为位置损失Bounding box的损失loss1上述公式6、置信度损失loss2上述公式8、图片识别的类别损失loss3上述公式6和多分类逻辑回归分类损失loss4上述公式6的总和，得如下公式：Loss＝loss1+loss2+loss3+loss4 (9)

通过对该损失反向传播，不断迭代，最终得到一个最优的网络模型的权重；将逻辑回归的预测概率ylog进行将小数变成大于1的数值，再和图像识别网络获得的类别相乘将相似的动作区分开，再对结果取sigmoid将概率变成小数，最后取概率最大的值；S2，获取实时采集的视频数据和腰带式辅助检测设备的辅助检测参数；

S3，将数据输入网络模型获取检测结果，通过卡尔曼滤波器和匈牙利指派算法跟踪患者；

S4，将处理之后包含box和检测结果的视频实时同步上传网络中，一旦患者出现跌倒的情况及时发送警报。

2.根据权利要求1所述一种基于多传感器融合视觉的室内姿势检测方法，其特征在于：

S2中，采集视频数据的摄像头设置在可观测整个病房的位置上，保证患者只要在屋内就能够被检测到，腰带式辅助检测装置将获取的数据发送到主机上，在主机上先对视频数据和传感器数据进行匹配，视频数据的每一帧都有对应的传感器数据。

3.根据权利要求1所述一种基于多传感器融合视觉的室内姿势检测方法，其特征在于：

S3中，将上述S2中，获取的视频数据和腰带检测到的数据分别输入至各自的网络模型中，在视频图像第一帧进来时，已检测到的患者初始化并创建跟踪器，并对患者的姿势进行标注，后面帧进来时，先到卡尔曼滤波器中得到由前面帧预测的box和分类结果和协方差预测，求跟踪器所有患者状态预测与本帧检测的box的CIOU，通过匈牙利指派算法得到CIOU最大的唯一匹配的数据关联部分，再去掉匹配值小于iou_threshold的匹配对，用本帧中匹配到的患者检测box去更新卡尔曼跟踪器，计算卡尔曼增益、状态更新和协方差更新，并将状态更新值输出，作为本帧的跟踪box，对于本帧中没有匹配到的患者重新初始化跟踪器，其中，卡尔曼跟踪器联合了历史跟踪记录，调节历史box与本帧box的残差，更好的跟踪患者和预测患者的下一个姿势。

4.根据权利要求1所述一种基于多传感器融合视觉的室内姿势检测方法，其特征在于：

S4中，通过上述S1至S3数据的处理，将包含患者位置和姿态的视频和腰带的数据同步到网络中，一旦患者出现跌倒，会通过网络发出警报，通知医护人员尽快开进行救助。