利索能及
我要发布
收藏
专利号: 202411844794X
申请人: 齐鲁工业大学(山东省科学院)
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-22
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于多尺度特征融合的X‑ray图像违禁品检测方法,其特征在于,包括以下步骤:S1.获取X‑ray违禁品数据集,并将X‑ray违禁品数据集划分为训练集和测试集;

S2.构建基于多尺度特征融合的X‑ray图像违禁品目标检测模型,所述模型包括图像分支、自适应高低通滤波器模块、文本分支、Neck层和Head头;训练集中X‑ray图像输入到模型中对模型进行训练;

训练集中X‑ray图像输入到图像分支中进行特征提取得到第一特征 、第二特征 和第三特征 ;所述第一特征 、第二特征 和第三特征 经过自适应高低通滤波器模块进行特征融合增强,得到第一增强特征 、第二增强特征 和第三增强特征 ;

在文本分支中,训练集经过富文本生成模块得到富文本表示,富文本表示输入到语言模型中生成文本特征,具体为:在富文本生成模块中,提取训练集中每张图片具有的违禁品类别的定位目标中心,使用具有方位表述的词语表示违禁品在整张图像的位置,所述方位表述的词语包括左上、中上、右上、左中、中间、右中、左下、中下、右下;通过规定好的语句模板格式生成每张图像中的违禁品富文本,根据每张图片中违禁品的特征描述以及包含类别和位置信息填充的语句模板,得到富文本表示T;将富文本表示T输入到预训练的RoBERTa模型中,生成文本特征W,公式表示如下:,

其中, 表示第 个富文本表示, 表示RoBERTa语言模型输入第i个富文本表示 生成的文本特征, 表示预训练的RoBERTa语言模型,表示 的名词个数,表示嵌入维度;

所述Neck层包括上采样层、下采样层以及T‑CSPLayer模块;将第一增强特征 、第二增强特征 、第三增强特征 和文本特征W输入到Neck层中进行融合,得到第一融合特征 、第二融合特征 、第三融合特征 ,过程如下:对第三增强特征 进行2倍上采样操作,将 上采样后的特征和第二增强特征 在通道维度上进行拼接,得到第一拼接特征 ,第一拼接特征 和文本特征W经过T‑CSPLayer模块进行融合,得到融合特征 ,公式表示如下:,

其中,表示Sigmoid函数, 表示文本特征中共 个向量,max表示求最大值;对融合特征 进行2倍上采样操作,将 上采样后的特征和第一增强特征 在通道维度上进行拼接,得到第二拼接特征 ,第二拼接特征 和文本特征W经过T‑CSPLayer模块进行融合,得到第一融合特征 ;

对第一融合特征 进行下采样操作,将 下采样后的特征和融合特征 在通道维度上进行拼接,得到第三拼接特征 ,第三拼接特征 和文本特征W经过T‑CSPLayer模块进行融合,得到第二融合特征 ;

对第二融合特征 进行下采样操作,将 下采样后的特征和第三增强特征 在通道维度上进行拼接,得到第四拼接特征 ,第四拼接特征 和文本特征W经过T‑CSPLayer模块进行融合,得到第三融合特征 ;

所述Head头包括文本对比头和边界框检测;将第一融合特征 、第二融合特征 和第三融合特征 输入到边界框检测中进行边界框预测,得到边界框预测结果;将第一融合特征 、第二融合特征 、第三融合特征 以及文本特征 输入到文本对比头进行文本相似度计算,得到相似度结果,相似度结果最高的文本类别为边界框对应的检测类别,进而得到违禁品检测结果 ,公式表示如下:,

其中, 表示归一化处理, 表示融合特征经过卷积得到图像特征嵌入向

量 ,表示目标的个数,表示可学习的缩放因子,用于调整得分的尺度,表示零初始化的可学习的偏移量;

S3.采用损失函数对模型进行优化,得到训练好的模型;

S4.测试集中X‑ray图像输入到训练好的模型中,得到违禁品检测结果。

2.根据权利要求1所述的基于多尺度特征融合的X‑ray图像违禁品检测方法,其特征在于,步骤S1包括:获取具有N张数据图片的X‑ray违禁品数据集 ,每张图片 的组成如下:

其中,表示图像的个数, 表示与该数据集中类别数量一致的向量,索引 表示出现在数据集中的指定类, =1表示该类别出现在 中, =0表示未出现在 中, 表示图像中不同类别对应的半透明子图像, 视为总违禁品目标物体类别, 表示图像中存在的所有与违禁品不相关的物体,称为背景类, ,表示该数据集的类别数; 表示图像 中违禁品目标物体类别是否存在,1表示存在,0表示不存在; 表示总违禁品类别中的单个违禁品目标物体类别; 表示图像 中的单个违禁品目标物体类别; 表示总背景类 中的单个背景类; 表示图像 中的单个背景类别。

3.根据权利要求1所述的基于多尺度特征融合的X‑ray图像违禁品检测方法,其特征在于,步骤S2,在图像分支中,训练集X‑ray图像输入到改进的YOLOv8的骨干网络进行特征提取得到多尺度特征,具体为:所述改进的YOLOv8的骨干网络中采用YOLO11的C3k2结构替换C2f结构,在骨干网络的最后一层SPPF模块之后加入YOLO11的C2PSA模块;将C3k2结构中的C3k卷积操作替换为可变形卷积,所述可变形卷积为可变形卷积网络DCN;

训练集中X‑ray图像输入到改进后的YOLOv8的骨干网络进行特征提取,得到第一特征、第二特征 和第三特征 。

4.根据权利要求3所述的基于多尺度特征融合的X‑ray图像违禁品检测方法,其特征在于,步骤S2自适应高低通滤波器模块具体为:所述自适应高低通滤波器模块包括自适应低通滤波生成器和自适应高通滤波生成器;

所述自适应低通滤波生成器包括卷积层、深度可分离卷积层、重塑并归一化层;所述自适应高通滤波生成器包括卷积层、重塑并归一化层、单位核相减层;

所述第一特征 、第二特征 和第三特征 经过自适应高低通滤波器模块进行特征融合增强,得到第一增强特征 、第二增强特征 和第三增强特征 ,具体过程为:将第三特征 作为高级特征与第二特征 进行特征融合增强得到第二增强特征 的具体步骤为:在自适应低通滤波生成器中,第二特征 经过卷积层进行卷积操作,得到在自适应低通滤波生成器中卷积后的特征 ,卷积后的特征 经过深度可分离卷积层进行深度可分离逆卷积操作,生成特征图组,所述特征图组经过重塑并归一化层得到低通滤波核 ;

第三特征 与生成的低通滤波核 进行卷积操作,得到中间特征 ,中间特征 再经过深度可分离卷积操作,得到增强后的第三特征 ;在自适应高通滤波生成器中,所述第二特征经过卷积层进行卷积操作,得到在自适应高通滤波生成器中卷积后的特征 ,卷积后的第二特征 经过重塑并归一化层得到自适应高通滤波生成器中的低通滤波核 ,低通滤波核 经过单位核相减层使用单位核E进行相减操作,得到反核,进而得到高通滤波核 ,所述单位核E的权值为[[0,0,0],[0,1,0],[0,0,0]];第二特征 与生成的高通滤波核 进行卷积操作,再进行残差操作,得到增强后的第二特征 ;将增强后的第三特征 和增强后的第二特征 进行融合,得到第二增强特征 ;同理,将第二增强特征 作为高级特征与第一特征 进行特征融合增强,得到第一增强特征 ;

所述第三增强特征 为未经任何处理的第三特征 。

5.根据权利要求4所述的基于多尺度特征融合的X‑ray图像违禁品检测方法,其特征在于,步骤S3具体为:所述损失函数包括区域文本对比损失 和边界框回归损失;所述边界框回归损失包括IoU损失 和分布焦点损失 ,将区域文本对比损失 、IoU损失 和分布焦点损失 进行组合,得到总体训练损失函数,公式表示如下:,

其中,表示权重因子。