利索能及
我要发布
收藏
专利号: 2023109797795
申请人: 山东科技大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-10-27
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于深度学习的船员越界落水行为实时检测方法,其特征在于,包括以下步骤:

S1、在船上布设监控相机,并实时采集监控视频;

S2、对采集的视频图像数据进行预处理,获取视频帧序列;

S3、基于yolov5算法构建目标检测模型,将视频帧序列输入该模型中进行船员目标检测;

S4、对S3的检测结果进行处理,得到处理好的图像帧序列,将图像帧序列输入到动作识别网络中,获得船员发生越界落水行为的概率,若输出的概率超过设定的阈值,则表示发生了越界落水行为,触发报警,提醒工作人员及时采取措施,同时将触发报警的图像序列存储下来,以便后续的查看和分析;

所述动作检测网络基于TR‑Dense net3D模型构建,采集包含越界落水行为的视频帧序列作为训练集对该模型进行训练,得到训练好的模型;

所述TR‑Dense net3D模型由一个卷积层、一个池化层、四个密集块、三个过渡层和一个分类层组成,其链接顺序为卷积层、最大池化层、密集块1、过渡层1、密集块2、过渡层2、密集块3、过渡层3、密集块4、分类层;所述密集块1、2和3均由六个密集单元和TCBAM注意力模块组成;所述密集块4由十二个密集单元和TCBAM注意力模块组成;每个密集单元依次由批归一化层、ReLU激活函数层、1×3×3卷积层、批归一化层、ReLU激活函数层、3×1×1卷积层组成;所述过渡层1、2和3均由一个过渡卷积层和一个平均池化层组成,过渡卷积层依次由批归一化层、ReLU激活函数层、1×1×1卷积层组成;所述分类层由一个全局平均池化层和一个全连接层组成;

视频帧序列以[3,32,224,224]的形式输入TR‑Dense net3D模型中,3表示输入的视频帧是RGB三通道的图像,32表示输入的视频帧序列的长度为32帧,两个224分别表示每个视频帧的高度和宽度为224像素;首先在卷积层中,对输入依次进行批归一化操作、采用ReLU激活函数映射和卷积核大小为7×7×3、步长为2的卷积操作,得到的特征图大小为[64,32,

112,112],使用一个3×3×3的最大池化层对特征图进行池化操作,得到的特征图大小为[64,16,56,56];然后依次经过密集块1、过渡层1、密集块2、过渡层2、密集块3、过渡层3、密集块4,输出的特征图大小为[560,2,7,7],输入到分类层中,全局池化层将特征图转化为固定长度的特征向量[560,1,1,1]并输入到全连接层中,全连接层将特征向量映射到越界落水行为,采用Sigmoid激活函数输出发生越界落水行为的概率,并采用二元交叉熵损失函数不断更新优化。

2.根据权利要求1所述的一种基于深度学习的船员越界落水行为实时检测方法,其特征在于,在S1中,所述监控相机被安装在船的二层甲板处,以全面覆盖船的外围栏区域,用于采集船员在外围栏杆处的行为。

3.根据权利要求1所述的一种基于深度学习的船员越界落水行为实时检测方法,其特征在于,S2包括以下子步骤:S2.1、采用ffmpeg模块对实时监控视频进行切割,将视频分解成连续的视频帧序列,切割的方式是以1/N秒取一帧的速度进行切割,N的取值为25;

S2.2、每两帧取一帧,得到视频帧序列。

4.根据权利要求1所述的一种基于深度学习的船员越界落水行为实时检测方法,其特征在于,在S4中,对检测结果进行处理包括以下子步骤:S4.1、初始化动作识别网络状态为False,表示未检测到船员,不开启动作识别网络,连续未检测到船员目标的累计帧数C设为0,基于检测结果进行如下判断:若检测到船员且动作识别网络状态为False,表示船员首次出现或之前未检测到船员,将动作识别网络状态改为True,继续执行S4.2;

若检测到船员且动作识别网络状态为True,表示船员已经被连续检测到或之前已确认为有效目标,继续执行S4.2;

若未检测到船员且动作识别网络状态为True,表示船员出现过,现在可能离开了,累计帧数C递增,判断C是否超过十帧;如果超过十帧,则说明连续未检测到船员目标,确定船员已经离开,将动作识别网络状态改为False,重置累计帧数C为0,不进行后续操作,如果未超过十帧,则继续执行S4.2;

若未检测到船员且动作识别网络状态为False,表示船员目标未出现或之前已确认为无效目标,则不进行后续操作;

S4.2、若检测到船员,根据目标检测模型检测到的船员锚框信息,将输入图像裁剪为大小为p×q的图像;若未检测到船员,按上一帧的锚框信息进行裁剪;

S4.3、将裁剪后的图像存入一个尺寸为s的队列,判断队列中的帧数是否达到s帧,当队列帧数等于s帧时,将队列中的图像帧序列作为动作识别网络的输入,同时取出队首的一帧图像,以便下一时刻的输入可以存入队列;当队列帧数小于s帧时,重复执行步骤S4.1。

5.根据权利要求1所述的一种基于深度学习的船员越界落水行为实时检测方法,其特征在于,所述TCBAM注意力模块由时间注意力模块、通道注意力模块和时空注意力模块组成;所述时间注意力模块由最大池化层、平均池化层、3d卷积层和Sigmoid激活函数层组成;

所述通道注意力模块由最大池化层、平均池化层、多层感知机和Sigmoid激活函数层组成;

所述时空注意力模块由最大池化层、平均池化层、3d卷积层和Sigmoid激活函数层组成;

密集单元输出的特征图F输入到时间注意力模块中,分别利用3维平均池化和3维最大池化来聚合输入特征的空间通道信息,生成两种不同的空间通道上下文描述符,再将两个空间通道上下文描述符拼接在一起,并经过卷积核为1×1×1的3d卷积层进行信息的聚合,最后用Sigmoid函数激活得到时间注意力权重,计算公式为:

1×1×1

Mt(F)=σ(f ([AvgPool3d(F);MaxPool3d(F)]));

1×1×1

其中,f 代表卷积核为1×1×1的卷积运算,σ代表sigmoid激活函数,AvgPool3d代表3维平均池化运算,MaxPool3d代表3维最大池化运算;将时间注意力权重图与特征图F相乘,能够调整不同时间帧序列的特征权重,得到特征图F`;

特征图F`输入到通道注意力模块中,首先分别利用3维平均池化和3维最大池化来聚合输入特征的时空信息,生成两种不同的时空上下文描述符,再将两个时空上下文描述符分别送入共享权重的多层感知机中,得到两个特征图,最后将得到的特征图进行逐元素求和并用sigmoid函数集合得到最后的通道注意力权重,其计算公式为:Mc(F`)=σ(MLP(AvgPool3d(F`))+MLP(MaxPool3d(F`)));

其中,MLP代表两层神经网络,将通道注意力权重图与原始特征图相乘,能够调整不同通道的特征权重,得到特征图F``;

特征图F``输入到时空注意力模块中,首先分别利用平均池化和最大池化来聚合输入特征的通道信息,生产两种不同的通道上下文描述符,再将两个通道上下文描述符拼接在一起,并经过一个卷积核为7×7×7的3d卷积层进行信息的聚合,最后用sigmoid函数激活得到时间注意力权重,其计算公式为:

7×7×7

Mts(F``)=σ(f ([AvgPool(F``);MaxPool(F``)]));

7×7×7

其中,f 代表卷积核为7×7×7的卷积运算,将时空注意力权重图与原始特征图相乘,不仅能够聚焦重要的局部空间信息,还能聚焦重要的局部时间信息,能够在时间和空间两个维度上突出重要特征,得到特征图F```。