利索能及
我要发布
收藏
专利号: 2025110892959
申请人: 南京信息工程大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于跨模态文本语义驱动的少样本缺陷识别方法,其特征在于,包括训练阶段和测试阶段;

在训练阶段:

获取正常图像的全局特征和局部特征,将正常图像的局部特征存入参考库;

构建正常前缀和异常引导词,根据正常前缀生成正常描述集合,根据异常引导词生成异常描述集合,并进行特征提取,得到正常描述特征集合和异常描述特征集合;

将正常图像的全局特征分别与正常描述特征和异常描述特征结合,生成正常特征向量和异常特征向量;

利用异常特征向量得到合成异常图像;

将正常图像和合成异常图像进行标注,利用正常图像和合成异常图像构成训练集,利用训练集训练二分类模型;

在测试阶段:

利用正常图像和缺陷图像构成测试集;

在测试集任选一幅图作为待检测图像,提取待检测图像的全局图像特征和局部图像特征;

正常特征向量和异常特征向量分别与待检测图像的全局图像特征通过最近邻算法计算距离,根据距离差值生成图像级异常分数;

将待检测图像输入至训练后的二分类模型,得到预测结果;

综合图像级异常分数和预测结果得到图像级异常检测分数,将图像级异常分数与预设阈值对比,得到判定结果;

获取正常图像的全局特征和局部特征的步骤包括:将预处理后的正常图像输入至图像编码器中,在图像编码器中经分块嵌入层划分为像素块序列,通过多头自注意力机制进行提取,得到全局特征 和局部特征,其中c表示空间图像被划分后的图像块数量,d表示每个图像块在视觉语言模型Clip中编码得到的特征维度,将正常图像的局部特征图存入参考库S;

根据正常前缀生成正常描述集合,根据异常引导词生成异常描述集合的步骤包括:将正常前缀记为 , 表示可进化正常前缀的总个数, 表示其中一个可进化正常前缀;

将正常前缀提示词 与目标对象名称经双向注意力机制融合,构建形式为的正常语义模板,形成N个正常描述模板,其中 表示目标对象类别名称,注意力机制 采用缩放点积形式, 表示向量序列的拼接操作;

将异常引导词记为 , 表示异常引导词的总个数, 表示其中一个异常引导词;

将类别名称 拼接在每个异常引导词的后面,得到一组具体的异常文本描述,表示为,模板型异常描述集合为 ,形成 个异常语义模板,其中M表示对应标注缺陷的类别总数;

通过动态权重融合模块 将异常引导词序列 与正常语义模板 关联,构造形式为 的可进化异常模板,形成 个可进化异常模板,其中, 表示双线性特征交互,为超参数控制可进化模板规模;

将包含 个正常描述模板的集合{ }作为正常描述集合,将 个异常语义模板和个可进化异常模板组成的集合 作为异常描述集合。

2.根据权利要求1所述的基于跨模态文本语义驱动的少样本缺陷识别方法,其特征在于,并进行特征提取,得到正常描述特征集合和异常描述特征集合的步骤包括:将正常描述集合{ }输入至文本编码器中,得到正常描述特征集合,表示为;其中 表示视觉语言模型Clip的文本编码器;

将异常描述集合 输入至文本编码器中,得到异常描述特征集合,表示为:。

3.根据权利要求2所述的基于跨模态文本语义驱动的少样本缺陷识别方法,其特征在于,对正常描述特征集合和异常描述特征集合进行优化,过程包括:将全局特征 、正常描述特征集合 和异常描述特征集合 输入至控制边界模块,计算正常描述特征均值,公式为:,

式中,表示正常描述模板索引;

构建特征相似度损失函数,公式为:

式中, 表示自然指数函数,为温度系数, 表示负的归一化点积相似度,表示模板型异常描述特征中的一个特征向量, 表示可进化异常模板中的一个特征向量;该损失 迫使正常图像的全局特征 与正常描述特征均值 的相似度高于其与异常描述特征的相似度;

实施多原型空间约束,计算异常描述特征均值,公式为:,

计算人工异常模板中心,公式为: ,计算可进化异常模板中心,公式为: ,构建双重距离损失函数,公式为:

其中, 表示全局特征 的期望值, 表示欧式距离的平方,为距离边界阈值,为分布对齐强度系数,第一项约束正常图像的全局特征 距 的欧氏距离比距近至少 单位,第二项缩小两类异常原型的分布差异;

总优化目标为 ,通过梯度下降更新可进化参数后,得到优化后的正常描述集合{ },以及由 个异常语义模板和 个可进化异常模板组成的异常描述集合 ,将正常描述特征均值 和异常描述特征均值 存入参考库S中。

4.根据权利要求3所述的基于跨模态文本语义驱动的少样本缺陷识别方法,其特征在于,将正常图像的全局特征分别与正常描述特征和异常描述特征结合,生成正常特征向量和异常特征向量的步骤包括:将全局特征 通过线性投影层 映射为 ,使全局特征与正常描述特征、异常描述特征维度对齐;

对每个正常描述特征 执行跨模态融合:采用门控机制 生成正常特征向量 ,公式为:

式中, 表示逐元素乘积, 为可进化参数矩阵,为Sigmoid激活;

对每个异常描述特征 计算跨模态注意力门控权重 ,为可进化参数;通过门控加权生成混合特征 ,将所有沿通道维度拼接后经全连接层 投影为最终的异常特征向量 ,公式为:

存储正常特征向量 和异常特征向量 到参考库 。

5.根据权利要求4所述的基于跨模态文本语义驱动的少样本缺陷识别方法,其特征在于,利用异常特征向量得到合成异常图像的步骤包括:利用异常特征向量 构成异常特征向量集合 ,将 输入到预训练的文本‑图像生成器的解码模块中,得到张量,  表示一个基于文本特征生成图像的预训练图文生成器, 表示训练数据集中的正常样本数量,H表示生成器最终输出合成异常图像的高度,W表示生成器最终输出的合成异常图像的宽度;

当网络执行到最终层时,通过双曲正切函数约束张量z的像素值范围,将原始输出压缩至 区间,表示为:,

式中, 表示为经过双曲正切函数压缩后的输出张量,即合成图像的像素值;

再通过线性变换将数值映射到标准RGB图像的[0,255]范围,得到包含合成异常图像的检测样本 ,公式为: ,通过约束条件 实现分辨率从 逐层提升至 ,其中 为输入生成网络的初始特征图基础尺寸参数,为第 层反卷积的上采样比例,为网络深度;

对每个样本 和每个异常描述 ]独立执行生成操作,最终生成的合成异常图像集合表示为:

, 表示由第 k个正常图像样本对应的第 n个正常提示模板和第 m个异常描述组合生成的合成异常图像。

6.根据权利要求5所述的基于跨模态文本语义驱动的少样本缺陷识别方法,其特征在于,在测试阶段,提取待检测图像的全局图像特征和局部图像特征的步骤包括:将标准化后的RGB查询图像记为 ,其中分辨率固定为H=W=256,将 输入图像编码器,通过12层Transformer块的多头自注意力机制提取特征,得到全局图像特征 ,公式为:,

式中, 表示非线性激活函数, 为由图像编码器输出的原始全局语义向量, 为可进化的正交投影矩阵, 表示层归一化;

将 输入多尺度特征提取器,其中多尺度特征提取器由4级卷积块构成,得到四组局部特征图,分别为:,

式中, 、 、 、 分别表示第一级卷积块、第二级卷积块、第三级卷积块、第四级卷积块,每级卷积块包含3个3×3卷积层与ReLU激活;

对每级局部特征图 执行空间维度展开与L2归一化,生成局部图像特征集合,公式为:,

式中, , 表示第 级特征图在空间位置 处的特征向量, 表示向量的欧几里得范数;

为了与训练阶段使用的局部特征维度对齐,将局部图像特征集合 通过线性映射层投影至与CLIP提取的文本特征相同维度、相同语义空间的特征空间,得到最终局部图像特征集合 = ,其中每个局部特征向量均在单位欧几里得球面上归一化。

7.根据权利要求6所述的基于跨模态文本语义驱动的少样本缺陷识别方法,其特征在于,正常特征向量和异常特征向量分别与待检测图像的全局图像特征通过最近邻算法计算距离,根据距离差值生成图像级异常分数的步骤包括:分别计算全局特征 与存储到参考库 中的正常特征向量 、异常特征向量之间的余弦相似度,以评估测试图像与训练特征之间的相似度,公式分别为:,

式中, 表示向量的L2范数;

计算图像级异常分数,公式为:

8.根据权利要求7所述的基于跨模态文本语义驱动的少样本缺陷识别方法,其特征在于,综合图像级异常分数和预测结果得到图像级异常检测分数,将图像级异常分数与预设阈值对比,得到判定结果的步骤包括:通过绝对值加权融合 与分类概率 的分式运算,得到图像级异常检测分数,公式为:,

式中,表示融合权重系数, 表示二分类预测结果;

当图像级异常分数 时判定待检测图像为异常图像,其中 表示通过接收者操作特征曲线分析确定的分类决策阈值。

9.根据权利要求8所述的基于跨模态文本语义驱动的少样本缺陷识别方法,其特征在于,当待检测图像为异常图像,检测异常图像的预测异常分割图,过程包括:对于局部特征图P中每个空间位置 的特征向量 ,其中每个空间位置的特征向量对应图像的一个局部区域,计算 与正常描述特征均值和异常描述特征均值的余弦相似度,公式为:,

式中,为温度参数, 表示向量内积; 表示归一化后的局部特征 表示参考库S中的正常描述特征均值, 表示参考库S中的异常描述特征均值;

通过 构建初步语义异常得分图 ,语义异常得分图中每个元素,数值越大表示区域异常概率越高;

并选取与参考库S中的 中同层级特征向量的最小相似度值 ,公式为:,

式中,表示 中的一个局部视觉特征向量, 表示当前正在处理的测试图像局部特征 所在的特征图层级;

将最小相似度值 映射为异常得分,公式为:,

通过度量查询图像的局部特征与正常图像局部特征的最小匹配程度,将相似度范围[‑

1,1]线性转换至[0,1],数值越大表示异常概率越高,将所有异常得分构成异常热力图,空间分辨率与输入特征图 一致,直接反映各区域偏离正常模式的显著程度;

计算 和 的非线性和式融合数作为预测异常分数图 ,公式为:,

式中, 表示预测异常分数图 每个空间位置的值;

将预测异常分数图 执行多尺度形态学优化与亚像素级边界精细化操作,其中预测异常分数图首先通过动态阈值分割生成初始二值掩码:采用改进的OTSU算法,计算自适应分割阈值 ,公式为:,

式中, 为热力图灰度直方图的类间方差,为局部对比度补偿因子, 为滑动窗口,为局部梯度幅值, 为梯度算子, 和 分别表示水平和垂直方向偏导数, 为总像素数;

当且仅当 时,二值掩码  =1表示异常,否则  =0表示正常,生成初始掩码 。