利索能及
我要发布
收藏
专利号: 2021108838479
申请人: 江南大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于洗衣机滚筒图像的多尺度衣物检测系统,其特征在于,所述系统包括:改进的ResNet101网络模块、特征增强模块SRM、动态感受野DRF模块、动态可变形卷积DDH模块;

所述改进的ResNet101网络模块与所述特征增强模块SRM连接,所述特征增强模块SRM的输出特征基础上构建四层多尺度金字塔结构,所述动态感受野DRF模块用于连接所述四层多尺度金字塔各特征层;所述动态可变形卷积DDH模块与所述动态感受野DRF模块连接。

2.根据权利要求1所述的系统,其特征在于,所述改进的ResNet101网络模块包括:一个卷积核为7×7,步长为1的2D卷积层,后接卷积核为3×3,步长为2的最大池化层,之后串联4个卷积层;所述4个卷积层中每个卷积层由不同层的残差块堆叠而成,层数分别为3,4,23,3,输出特征取自所述4个卷积层中的第三层和第四层卷积块。

3.根据权利要求2所述的系统,其特征在于,所述DRF模块包含大小不同的多分支卷积。

4.一种基于洗衣机滚筒图像的多尺度衣物检测方法,其特征在于,所述方法利用权利要求3所述的基于洗衣机滚筒图像的多尺度衣物检测系统对洗衣机衣物进行检测,所述方法包括:

步骤一:对输入洗衣机滚筒图像进行预处理;

步骤二:应用改进的ResNet101网络模块对步骤一预处理后的洗衣机滚筒图像进行特征提取,输出8倍下采样率和16倍下采样率的特征层;

步骤三:将步骤二所提取的特征层送入特征增强模块SRM,以进行信息的聚合,得到表征能力更强的浅层特征;

步骤四:将步骤三所得浅层特征输入四层多尺度金字塔结构,所述浅层特征通过所述四层多尺度金字塔各层之间的DRF模块,最终得到金字塔各特征层的输出特征;

步骤五:对步骤三所得的浅层特征进行多尺度的回归操作,利用浅层特征信息来进行衣物的粗定位,获得预测框;

步骤六:利用动态可变形卷积DDH模块对步骤四的金字塔各特征层的输出特征进行偏移;

步骤七:将步骤五所得预测框作为步骤四所述的四层多尺度金字塔各特征层的默认框,并使用步骤六所述DDH模块产生的偏移量对默认框进行调整;

步骤八:利用所述DDH模块进行二次的回归以及分类;

步骤九:将步骤五和步骤八中的回归损失函数进行综合,共同训练,最终输出衣物的分类和精确定位信息。

5.根据权利要求4所述的方法,其特征在于,所述步骤三进行信息的聚合包括:其中,S3为改进的ResNet101网络第三层在8倍下采样率的输出特征,S4为改进的ResNet101网络第四层在16倍下采样率的输出特征,fk×k(.)为k×k卷积操作, 为逐元素相加,C(.)为通道堆叠,U(.)为上采样操作,y为8倍下采样率的聚合两层特征的输出特征。

6.根据权利要求5所述的方法,其特征在于,所述步骤四的DRF模块的计算包括:其中x为金字塔结构中每一层的上层输出特征, 为膨胀率r的k×k卷积,i代表着所述DRF模块的第i条分支,W1[i]和W2[i]为第i条分支上网络自学习得到的权重参数,代表N+1个特征图的堆叠,U为所述DRF模块的输出特征。

7.根据权利要求4所述的方法,其特征在于,所述步骤五的多尺度回归算法包括:S1:对所述步骤三的输出特征y进行4次最大池化操作得到与步骤四中四层金字塔特征一致的四个尺度;

k

Dk=f3×3(M(y)),k=0,1,2,3k 3+k

其中M (.)代表进行了k次最大池化操作,其下采样率为2 ;Dk为输出特征;通道数为Nbox×4,代表着相对于输出特征Dk每个像素点所配置的Nbox个默认框中心和宽高的4个偏置量;

S2:对每个Dk的预测结果进行拼接,得到预测结果的整合向量l;

S3:对l使用smoothL1函数作为回归损失:其中cx,cy,w,h为默认框的中心及宽高坐标,N为默认框的总数量,l为所有Dk预测结果的整合向量,表示对所有N个默认框的4个预测偏置,为所对应的已知真实框相对于默认框的4个偏置;

S4:网络在训练过程中根据S3的损失函数进行反向求导,从而缩小l与 的差距,最终得到较为准确的预测结果的整合向量l。

8.根据权利要求7所述的方法,其特征在于,所述步骤六中的DDH模块的计算包括:其中R代表感受野的区域和相对位置,以(0,0)坐标为中心,R={(‑1,‑1),(‑1,0),...,(0,1),(1,1)};pn是对R中所列位置的枚举,w(.)为卷积核中对应位置的权重值,I(.)为对应位置的输入特征值,O(.)为对应位置的输出特征值;偏移量Δpn通过步骤五S1中所得Dk进行3×3卷积得到,其输出通道数为k×k×2,代表对k大小的卷积核中每个位置的偏移参数。

9.根据权利要求8所述的方法,其特征在于,所述步骤七对默认框进行调整的公式包括:

* cx

cx=cx+Δp|x+l ×w

* cy

cy=cy+Δp|y+l ×h

其中,cx*,cy*,w*,h*为调整后的默认框的中心及宽高坐标,Δp|x和Δp|y为DDH模块偏cx cy w h

移量Δp关于x和y方向的分量,l 、l 、l、l为默认框中心及宽高坐标的预测偏置。

10.根据权利要求9所述的方法,其特征在于,所述步骤八的二次回归损失为:分类损失为:

式中 表示第z个预测框与第j个真实框关于类别t是否匹配,为类别置信度的softmax损失,Npos和Nneg分别为正负样本的数量,所述正样本为包含衣物目标的预测框,所述负样本为不包含衣物目标的预测框;

所述步骤九中的综合损失函数为: