利索能及
我要发布
收藏
专利号: 2020103717859
申请人: 青岛联合创智科技有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种样本高效标注的物品识别方法,其特征在于:具体工艺步骤如下:

S11、训练样本库

根据需求准备相应类别的静态图片作为训练样本进行训练,形成训练数据集;训练数据集中包括训练16类物品,分别为:小刀、杯子、遥控器、单肩包、手机、剪刀、笔记本电脑、鼠标、双肩包、钥匙、钱包、眼镜、雨伞、扇子、小狗、小猫;训练数据集主要包括3部分,分别为:第一部分为样本量占比约为1/2的从coco数据集中挑选的训练样本,第二部分为样本量占比约为1/4的从网上下载的训练样本,及第三部分为样本量占比约为1/4的用户拍摄的具体场景下的训练样本;

S12、样本标注

使用labelme工具进行图像标注工作,对训练样本进行轮廓标注,最终生成样本标注文件;将所有的样本标注文件结合得到最后的训练样本数据,用于训练物品检测模型;由于轮廓标注的点较多,标注样本比较费时,为了节省样本标注时间,采用如下标注方式:S121、由于mask rcnn算法有基于coco数据集的开源的检测模型,其中coco数据集共有

80类,因此对训练样本进行分类别训练标注,得到json文件或者样本标注文件,

1、对于coco数据集中存在的物品类别,首先用开源的检测模型检测一遍训练样本并将检测的轮廓及预测类别信息进行保存,然后生成相应的json格式文件,根据生成的json文件通过labelme工具对训练样本的对应目标进行人工微调,得到最终的json文件,这样可以节省大量的样本标注时间;

2、对于coco数据集中不存在的物品类别,(a1)先进行人工标注训练数据集中训练样本的少量样本,(a2)然后利用人工标注的少量样本训练检测模型,(a3)再用训练得到的检测模型检测训练样本并保存检测结果,(a4)再后根据检测结果通过labelme工具对样本标注信息进行人工微调,(a5)用增加的标注样本重新更新检测模型,最终得到所有训练样本的标注文件,从而节省标注样本的时间;

S122、最终将所有的样本标注文件结合得到最后的训练样本数据,用于训练物品检测模型;

S13、训练物品检测模型

采用mask rcnn算法进行物品检测、类别预测及实例分割;采用resnet-101骨干网络进行模型的训练;通过修改包括训练类别数、学习率、最大迭代次数、GPU参数、训练数据路径、模型保存路径在内的训练参数,对训练样本数据进行训练;通过多次修改学习率和最大迭代次数,在已有模型的基础上进行多次模型训练操作,直到得到一个满足自己需求的模型;

S14、目标检测

得到训练好的模型后,采用mask rcnn算法进行目标检测,得到的预测类别、分割的目标区域的轮廓信息和边界框,作为最后的检测结果。

2.根据权利要求1所述的样本高效标注的物品识别方法,其特征在于:所述步骤S14的目标检测具体工艺流程如下:(1)读取摄像头的视频帧获得视频图像并输入,对图像进行尺度变化的预处理,将预处理后的图像表示为I;由于有的摄像头分辨率很高,通过预处理操作能够将原图进行适当的缩小,从而提高检测速度;

(2)将I输入resnet-101骨干网络进行特征提取,得到特征图FI;

(3)将特征图FI输入RPN网络,生成多个候选目标区域Pi,i=1,2,...,N,N表示候选目标区域的数量;

所述RPN网络的架构由输入特征图、3*3conv、两个并联的1*1conv、输出候选区域依次组合构成;

(4)将Pi依次输入ROIAlign层,得到固定尺寸的特征图fi;采用双线性插值的方式,减少映射误差;

(5)将步骤(4)得到的特征图fi输入分类分支,经过全连接层,得到该图像中所有候选区域内目标的边界框bboxs及对应的预测类别信息classes;

(6)根据(5)步骤得到的目标边界框bboxs对特征图fi进行剪裁得到特征图fib,将特征图fib输入分割分支,经过全卷积网络得到该图像中所有候选区域内目标的轮廓信息maskes;

(7)通过opencv函数minAreaRect()获取步骤(6)得到的轮廓信息mask的最小外接矩形rect,包括中心点坐标(x,y)、宽高(w,h)及旋转角度(θ);

(8)将步骤(7)获取的轮廓信息mask的最小外接矩形rect的信息,通过opencv函数boxPoints()获得最小外接矩形的4个顶点坐标;

(9)将步骤(7)获取的轮廓信息mask的最小外接矩形rect的信息,通过opencv函数warpAffine()将输入图像I进行旋转,得到旋转后的图像Irotate,然后再根据步骤(8)中的4个顶点坐标在图像Irotate中截取对应的矩形区域作为最后的目标区域的边界框;

(10)最终将步骤(5)得到的预测类别、步骤(6)分割的目标区域的轮廓信息和步骤(9)得到的边界框输出作为最后的检测结果。

3.根据权利要求2所述的样本高效标注的物品识别方法,其特征在于:所述resnet-101骨干网络由输入图像、零填充操作(ZeroPadding)、卷积层(Conv2D)、批归一化操作(BatchNorm)、激活层(ReLu)、最大池化操作(MaxPooling)、多个卷积块1、多个卷积块2和输出依次连接构成;如图4所示,其中卷积块1(block1或Block1)由输入端、两个并联支路、激活层、输出端依次连接构成,输入数据经过两个由卷积层、批归一化操作、激活层依次组合构成的区块和一个由卷积层、批归一化操作依次组合构成的区块连接形成的卷积块1第一个支路,卷积块1第一个支路的输出、输入端的输入相加后再输入激活层得到输出数据;如图5所示,卷积块2(block2)由输入端、两个并联支路、激活层、输出端依次连接构成,输入数据经过两个由卷积层、批归一化操作、激活层依次组合构成的区块和一个由卷积层、批归一化操作依次组合构成的区块连接形成的卷积块2第一个支路,一个由卷积层、批归一化操作依次组合构成的区块构成卷积块2第二个支路,卷积块2第一个支路的输出和卷积块2第二个支路的输出相加后再输入激活层得到输出数据。