1.一种基于三维卷积网络的捕鱼行为识别方法,其特征在于,包括步骤:
采集视频数据,基于视频数据得到所需的图像序列;
将图像序列中连续的多张图像一并输入三维卷积网络,提取输入数据的多维度特征向量;
利用输入图像序列的图像宽和高两个维度的信息生成参考锚框;
利用所得多维度特征向量与参考锚框,解码出目标所在位置,并分类目标行为,得到捕鱼行为目标。
2.根据权利要求1所述的一种基于三维卷积网络的捕鱼行为识别方法,其特征在于,所述三维卷积网络采用改进的Retina三维卷积网络;
所述改进的Retina三维卷积网络通过在基础Retina二维卷积网络中增加输入数据的时间维度信息得到三维卷积网络结构;并增加输入端口改造成多张图像输入的网络结构;
所述改进的Retina三维卷积网络包括3D Conv1卷积层、3D Conv2卷积层、3D Conv3卷积层和3D Conv4卷积层。
3.根据权利要求2所述的一种基于三维卷积网络的捕鱼行为识别方法,其特征在于,所述利用三维卷积网络提取输入数据的多维度特征向量,包括步骤:将多张图像序列输入依次传入3D Conv1卷积层、3D Conv2卷积层、3D Conv3卷积层和
3D Conv4卷积层提取特征,得到输入数据的多维度特征向量;
在卷积的过程中,3D Conv1卷积层将多张图像序列的时间维度m压缩为1维;3D Conv2卷积层、3D Conv3卷积层和3D Conv4卷积层的操作不改变输入特征的时间维度大小,而将空间维度依次降为原来的1/2大小;
所述经过3D Conv1卷积层、3D Conv2卷积层、3D Conv3卷积层和3D Conv4卷积层的特征提取结果即表示不同尺度下的金字塔式特征。
4.根据权利要求3所述的一种基于三维卷积网络的捕鱼行为识别方法,其特征在于,所述利用输入图像序列的图像宽和高两个维度的信息生成参考锚框,包括步骤:利用3D Conv2卷积层、3D Conv3卷积层、3D Conv4卷积层三层输出所对应的P2特征图、P3特征图和P4特征图构建锚框;
在每一层中使用特征图长和宽对应的20、21/3、22/3倍尺度缩放得到三个不同边长,再对所得的每个边长求对应面积,对面积再进行0.5、1、2倍尺度的缩放,开方后得到新的锚框边长;
对特征图边长进行两次不同尺度的变换,输入图像序列在空间维度对应像素点上可在每层特征图中得到多个不同长宽比的锚框,作为参考锚框。
5.根据权利要求4所述的一种基于三维卷积网络的捕鱼行为识别方法,其特征在于,分类所述目标行为时,融合Conv2卷积层、Conv3卷积层和Conv4卷积层所提取的特征,并将其用于分类和回归任务,包括步骤:将Conv4输出的特征图变换为列维度为4的特征图,用于训练时与对应锚框一同计算位置区域的回归损失;复制上述Conv4输出的特征图,将其变换为列维度为K的特征图,K表示分类的类别数,用于训练时与类别标签一同计算分类损失;
将Conv4输出的特征图上采样2倍,与Conv3输出的特征图按位相加得到特征融合后的特征图,将融合后的特征图变换为列维度为4的特征图,用于训练时与对应锚框一同计算位置区域的回归损失;复制融合后的特征图,将其变换为列维度为K的特征图,K表示分类的类别数,用于训练时与类别标签一同计算分类损失;
将Conv3输出的特征图上采样2倍,与Conv2输出的特征图按位相加得到特征融合后的特征图,将融合后的特征图变换为列维度为4的特征图,用于训练时与对应锚框一同计算位置区域的回归损失;复制融合后的特征图,将其变换为列维度为K的特征图,K表示分类的类别数,用于训练时与类别标签一同计算分类损失。
6.根据权利要求5所述的一种基于三维卷积网络的捕鱼行为识别方法,其特征在于,通过所述三维卷积网络对捕鱼行为目标进行预测,包括步骤:所得的分类为对输入图像序列的分类,所得的回归预测结果为相对于锚框的偏移量,根据锚框的坐标反向恢复,得到相对于原图像序列的坐标;
获得相对于原图像序列的坐标后,一个目标有多个坐标与其对应,通过非极大值抑制的方式进行舍弃处理得到最优目标坐标作为预测结果。
7.根据权利要求6所述的一种基于三维卷积网络的捕鱼行为识别方法,其特征在于,所述根据锚框的坐标反向恢复,得到相对于原图像序列的坐标;其中恢复公式为:其中,Δx和Δy表示预测偏移量的左上角坐标,Δw表示预测偏移量相对宽,Δh表示预测偏移量的相对高;xa和ya表示对应锚点的左上角坐标,wa表示对应锚点的宽,ha表示对应锚点的高。
8.一种基于三维卷积网络的捕鱼行为识别系统,其特征在于,包括视频数据采集单元、输入数据特征向量提取单元、参考锚框生成单元和捕鱼行为目标识别单元:视频数据采集单元:用于采集视频数据,基于视频数据得到所需图像序列;
输入数据特征向量提取单元:用于将图像序列中连续的多张图像一并输入三维卷积网络,提取输入数据的多维度特征向量;
参考锚框生成单元:利用输入图像序列的图像宽和高两个维度的信息生成参考锚框;
捕鱼行为目标识别单元:利用所得多维度特征向量与参考锚框,解码出目标所在位置,并分类目标行为,得到捕鱼行为目标。