买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于深度学习的船员越界落水行为实时检测方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于深度学习的船员越界落水行为实时检测方法

￥22200

专利号： 2023109797795

申请人：山东科技大学

专利类型：发明专利

专利状态：已下证

更新日期：2025-10-27

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于深度学习的船员越界落水行为实时检测方法，其特征在于，包括以下步骤：

S1、在船上布设监控相机，并实时采集监控视频；

S2、对采集的视频图像数据进行预处理，获取视频帧序列；

S3、基于yolov5算法构建目标检测模型，将视频帧序列输入该模型中进行船员目标检测；

S4、对S3的检测结果进行处理，得到处理好的图像帧序列，将图像帧序列输入到动作识别网络中，获得船员发生越界落水行为的概率，若输出的概率超过设定的阈值，则表示发生了越界落水行为，触发报警，提醒工作人员及时采取措施，同时将触发报警的图像序列存储下来，以便后续的查看和分析；

所述动作检测网络基于TR‑Dense net3D模型构建，采集包含越界落水行为的视频帧序列作为训练集对该模型进行训练，得到训练好的模型；

所述TR‑Dense net3D模型由一个卷积层、一个池化层、四个密集块、三个过渡层和一个分类层组成，其链接顺序为卷积层、最大池化层、密集块1、过渡层1、密集块2、过渡层2、密集块3、过渡层3、密集块4、分类层；所述密集块1、2和3均由六个密集单元和TCBAM注意力模块组成；所述密集块4由十二个密集单元和TCBAM注意力模块组成；每个密集单元依次由批归一化层、ReLU激活函数层、1×3×3卷积层、批归一化层、ReLU激活函数层、3×1×1卷积层组成；所述过渡层1、2和3均由一个过渡卷积层和一个平均池化层组成，过渡卷积层依次由批归一化层、ReLU激活函数层、1×1×1卷积层组成；所述分类层由一个全局平均池化层和一个全连接层组成；

视频帧序列以[3,32,224,224]的形式输入TR‑Dense net3D模型中，3表示输入的视频帧是RGB三通道的图像，32表示输入的视频帧序列的长度为32帧，两个224分别表示每个视频帧的高度和宽度为224像素；首先在卷积层中，对输入依次进行批归一化操作、采用ReLU激活函数映射和卷积核大小为7×7×3、步长为2的卷积操作，得到的特征图大小为[64,32,

112,112]，使用一个3×3×3的最大池化层对特征图进行池化操作，得到的特征图大小为[64,16,56,56]；然后依次经过密集块1、过渡层1、密集块2、过渡层2、密集块3、过渡层3、密集块4，输出的特征图大小为[560,2,7,7]，输入到分类层中，全局池化层将特征图转化为固定长度的特征向量[560,1,1,1]并输入到全连接层中，全连接层将特征向量映射到越界落水行为，采用Sigmoid激活函数输出发生越界落水行为的概率，并采用二元交叉熵损失函数不断更新优化。

2.根据权利要求1所述的一种基于深度学习的船员越界落水行为实时检测方法，其特征在于，在S1中，所述监控相机被安装在船的二层甲板处，以全面覆盖船的外围栏区域，用于采集船员在外围栏杆处的行为。

3.根据权利要求1所述的一种基于深度学习的船员越界落水行为实时检测方法，其特征在于，S2包括以下子步骤：S2.1、采用ffmpeg模块对实时监控视频进行切割，将视频分解成连续的视频帧序列，切割的方式是以1/N秒取一帧的速度进行切割，N的取值为25；

S2.2、每两帧取一帧，得到视频帧序列。

4.根据权利要求1所述的一种基于深度学习的船员越界落水行为实时检测方法，其特征在于，在S4中，对检测结果进行处理包括以下子步骤：S4.1、初始化动作识别网络状态为False，表示未检测到船员，不开启动作识别网络，连续未检测到船员目标的累计帧数C设为0，基于检测结果进行如下判断：若检测到船员且动作识别网络状态为False，表示船员首次出现或之前未检测到船员，将动作识别网络状态改为True，继续执行S4.2；

若检测到船员且动作识别网络状态为True，表示船员已经被连续检测到或之前已确认为有效目标，继续执行S4.2；

若未检测到船员且动作识别网络状态为True，表示船员出现过，现在可能离开了，累计帧数C递增，判断C是否超过十帧；如果超过十帧，则说明连续未检测到船员目标，确定船员已经离开，将动作识别网络状态改为False，重置累计帧数C为0，不进行后续操作，如果未超过十帧，则继续执行S4.2；

若未检测到船员且动作识别网络状态为False，表示船员目标未出现或之前已确认为无效目标，则不进行后续操作；

S4.2、若检测到船员，根据目标检测模型检测到的船员锚框信息，将输入图像裁剪为大小为p×q的图像；若未检测到船员，按上一帧的锚框信息进行裁剪；

S4.3、将裁剪后的图像存入一个尺寸为s的队列，判断队列中的帧数是否达到s帧，当队列帧数等于s帧时，将队列中的图像帧序列作为动作识别网络的输入，同时取出队首的一帧图像，以便下一时刻的输入可以存入队列；当队列帧数小于s帧时，重复执行步骤S4.1。

5.根据权利要求1所述的一种基于深度学习的船员越界落水行为实时检测方法，其特征在于，所述TCBAM注意力模块由时间注意力模块、通道注意力模块和时空注意力模块组成；所述时间注意力模块由最大池化层、平均池化层、3d卷积层和Sigmoid激活函数层组成；

所述通道注意力模块由最大池化层、平均池化层、多层感知机和Sigmoid激活函数层组成；

所述时空注意力模块由最大池化层、平均池化层、3d卷积层和Sigmoid激活函数层组成；

密集单元输出的特征图F输入到时间注意力模块中，分别利用3维平均池化和3维最大池化来聚合输入特征的空间通道信息，生成两种不同的空间通道上下文描述符，再将两个空间通道上下文描述符拼接在一起，并经过卷积核为1×1×1的3d卷积层进行信息的聚合，最后用Sigmoid函数激活得到时间注意力权重，计算公式为：

1×1×1

Mt(F)＝σ(f ([AvgPool3d(F)；MaxPool3d(F)]))；

1×1×1

其中，f 代表卷积核为1×1×1的卷积运算，σ代表sigmoid激活函数，AvgPool3d代表3维平均池化运算，MaxPool3d代表3维最大池化运算；将时间注意力权重图与特征图F相乘，能够调整不同时间帧序列的特征权重，得到特征图F`；

特征图F`输入到通道注意力模块中，首先分别利用3维平均池化和3维最大池化来聚合输入特征的时空信息，生成两种不同的时空上下文描述符，再将两个时空上下文描述符分别送入共享权重的多层感知机中，得到两个特征图，最后将得到的特征图进行逐元素求和并用sigmoid函数集合得到最后的通道注意力权重，其计算公式为：Mc(F`)＝σ(MLP(AvgPool3d(F`))+MLP(MaxPool3d(F`)))；

其中，MLP代表两层神经网络，将通道注意力权重图与原始特征图相乘，能够调整不同通道的特征权重，得到特征图F``；

特征图F``输入到时空注意力模块中，首先分别利用平均池化和最大池化来聚合输入特征的通道信息，生产两种不同的通道上下文描述符，再将两个通道上下文描述符拼接在一起，并经过一个卷积核为7×7×7的3d卷积层进行信息的聚合，最后用sigmoid函数激活得到时间注意力权重，其计算公式为：

7×7×7

Mts(F``)＝σ(f ([AvgPool(F``)；MaxPool(F``)]))；

7×7×7

其中，f 代表卷积核为7×7×7的卷积运算，将时空注意力权重图与原始特征图相乘，不仅能够聚焦重要的局部空间信息，还能聚焦重要的局部时间信息，能够在时间和空间两个维度上突出重要特征，得到特征图F```。