1.一种基于跨模态自适应交互的少样本工业异常检测方法,其特征在于:具体包括:获取少样本数据集;
将少样本数据集输入双路径视觉编码器,得到层双路径残差融合特征;
将层双路径残差融合特征中多个层的双路径残差融合特征输入多层级特征自适应融合适配器,得到对齐后的最终特征;
将对齐后的最终特征输入跨模态动态提示嵌入器,得到正常语义投影与异常语义投影;
将对齐后的最终特征、正常语义投影与异常语义投影输入跨模态交互模块,得到优化后的文本特征和优化后的视觉特征;
根据对齐后的最终特征,正常语义投影,异常语义投影,优化后的视觉特征以及优化后的文本特征计算总损失,并利用总损失对工业异常检测模型参数更新,得到训练好的工业异常检测模型;
将待检测的工业图像输入训练好的工业异常检测模型,得到对齐后的最终特征,异常语义投影、优化后的视觉特征以及优化后的文本特征,用于判断待检测的工业图像异常情况;
所述将对齐后的最终特征输入跨模态动态提示嵌入器,得到正常语义投影与异常语义投影,具体包括:由对齐后的最终特征得到全局描述向量,将全局描述向量通过全连接层升维,并通过激活函数得到隐层特征;采用分头投影策略,将隐层特征解耦生成多组隐向量;将多组隐向量拼接为动态提示前缀矩阵,并通过层归一化得到动态提示前缀;调用大语言模型获得工业语义增强知识得到缺陷描述,将动态提示前缀、类别名称、与“无瑕疵”语义进行语句拼接得正常提示模板,将动态提示前缀、类别名称、与工业语义增强知识进行语句拼接得异常提示模板;将正常提示模板与异常提示模板送入文本编码器得到正常语义投影与异常语义投影。
2.根据权利要求1所述的一种基于跨模态自适应交互的少样本工业异常检测方法,其特征在于:还包括:根据待检测的工业图像的对齐后的最终特征,正常语义投影与异常语义投影、优化后的视觉特征以及优化后的文本特征,对异常情况进行定位。
3.根据权利要求1或2所述的一种基于跨模态自适应交互的少样本工业异常检测方法,其特征在于:所述少样本数据集为从每类数据集中随机选取K张正常样本,作为少样本训练集 , , 为正常样本。
4.根据权利要求1或2所述的一种基于跨模态自适应交互的少样本工业异常检测方法,其特征在于:所述将少样本数据集输入双路径视觉编码器,得到 层双路径残差融合特征,具体包括:步骤2.1:将少样本数据集中正常样本 依次进行卷积分块得到分块特征 ;
步骤2.2:在通道维度依次对分块特征 执行层归一化,得到初始块嵌入特征 ;
步骤2.3:将初始块嵌入特征 输入至全局上下文注意力路径,通过三组独立线性投影生成第一层注意力计算的查询向量 、键向量 和值向量 ;
步骤2.4:计算首层注意力特征 ,表达式如下:;
其中, 为归一化操作, 为缩放因子;
步骤2.5:将首层注意力特征 输入前馈网络扩展特征维度得到中间层特征 、 第一层QKV注意力 ,表达式如下:;
;
其中, 为前馈网络扩展层权重参数、 为前馈网络扩展层偏置参数、 为前馈网络压缩层权重参数、 为前馈网络压缩层偏置参数、 为激活函数;
步骤2.6:将初始块嵌入特征 输入空间‑通道混合注意力路径,通过轻量化单通道卷积生成第一层空间权重图 ;
步骤2.7:计算初始块嵌入特征 第一层全局平均池化值 ;
步骤2.8:将第一层全局平均池化值 通过线性层升维投影并通过激活函数,得到中间特征 ;
步骤2.9:将中间特征 通过线性投影层降维恢复并通过激活函数得到第一层通道权重 ;
骤2.10:将第一层空间权重图 、第一层通道权重 与初始块嵌入特征通过混合门控加权输出第一层融合后的特征 ;
步骤2.11:根据第一层QKV注意力 、第一层融合后的特征 和初始块嵌入特征 计算第一层双路径残差融合特征 ,表达式如下:;
步骤2.12 重复步骤2.4‑步骤2.11,分别计算 的 层双路径残差融合特征,表达式如下:。
5.根据权利要求1或2所述的一种基于跨模态自适应交互的少样本工业异常检测方法,其特征在于:所述将 层双路径残差融合特征中多个层的双路径残差融合特征输入多层级特征自适应融合适配器,得到对齐后的最终特征,具体包括:步骤3.1:从 层双路径残差融合特征 中提取第 、 、层的双路径残差融合特征, 作为层级特征 ,其中,、、 ;
步骤3.2:将层级特征 分别进行全局平均池化,得到平均池化值 ,其中, 、、;
步骤3.3:将平均池化值 通过轻量级映射层得到中间特征 ,表达式如下:;
其中, 为升维矩阵参数, 为偏置向量,GeLU为激活函数;
步骤3.4:计算每层中间特征 的层级注意力权重 ,表达式如下:;
其中: 为层级注意力权重矩阵、 为层级注意力偏置;
步骤3.5:将层级注意力权重 进行权重归一化得到层级权重归一化权重 ;
步骤3.6:将层级特征 与归一化后的注意力权重 加权融合,得到融合特征 ;
;
步骤3.7:将融合特征 通过线性投影对齐特征维度,得到对齐后的最终特征;
;
其中: 为可学习对齐矩阵。
6.根据权利要求1或2所述的一种基于跨模态自适应交互的少样本工业异常检测方法,其特征在于:所述将对齐后的最终特征输入跨模态动态提示嵌入器,得到正常语义投影与异常语义投影,具体包括:步骤4.1:对齐后的最终特征 通过卷积操作得到压缩特征 ;
步骤4.2:将压缩特征 通过卷积与归一化层生成空间注意力聚集权重 ;
步骤4.3:将压缩特征 与空间注意力聚集权重 进行上下文聚合得到全局描述向量 ;
步骤4.4:将全局描述向量 通过全连接层升维,并通过激活函数得到隐层特征 ;
步骤4.5:采用分头投影策略,将隐层特征 解耦为S组独立子空间,每组通过独立线性层生成隐向量 ,其中, ,表达式如下:;
其中, 为第i组分头投影权重, 为第i组分头投影偏置, 为线性变换参数;
步骤4.6:将S组隐向量 拼接为动态提示前缀矩阵,并通过层归一化得到动态提示;
步骤4.7:调用大语言模型获得工业语义增强知识 ,表达式如下:;
其中: 为大语言模型, 为从大语言模型输出中选取置信度最高的Z条缺陷描述, 表示输入的类别标识符;
步骤4.8:将动态前缀 、类名与“无瑕疵”语义进行拼接,得正常提示模板 ;
;
步骤4.9:将动态前缀 、类名与工业语义增强知识 进行拼接,得异常提示模板 ;
;
其中: 为语句拼接操作;
步骤4.10:将正常提示模板 与异常提示模板 送入文本编码器得到正常语义投影 与异常语义投影 。
7.根据权利要求1或2所述的一种基于跨模态自适应交互的少样本工业异常检测方法,其特征在于:所述将对齐后的最终特征、正常语义投影与异常语义投影输入跨模态交互模块,得到优化后的文本特征和优化后的视觉特征,具体包括:步骤5.1:令 作为正、负文本特征,将对齐后的最终特征 、正、负文本特征 分别通过归一化层与线性层进行跨模态语义对齐得到注意力计算的视觉查询注意力向量 、正常文本键注意力向量 、异常文本键注意力向量 、正常文本值注意力向量 和异常文本值注意力向量 ,表达式如下:;
其中: 为可学习的视觉查询注意力权重、 为正常文本键注意力权重、 为异常文本键注意力权重、 为正常文本值注意力权重, 为异常文本值注意力权重、 为归一化操作, 为正常语义投影, 为异常语义投影;
步骤5.2:对视觉查询注意力向量 的每个空间位置计算自适应正注意力权重 、自适应负注意力权重 ,表达式如下:;
其中: 为空间位置, 为缩放因子;
步骤5.3:根据自适应正注意力权重 、自适应负注意力权重 ,计算注意力交互优化后的正常文本特征 ,注意力交互优化后的异常文本特征 ,表达式如下:;
;
其中,表示高度总数值,b表示宽度总数值;
步骤5.4:将注意力交互优化后的异常文本特征 通过非线性映射层得到非线性高阶语义特征 ,表达式如下;
;
其中: 为高阶语义扩展层权重, 为高阶语义扩展层偏置; 为高阶语义压缩层权重, 高阶语义压缩层偏置;
步骤5.5:将工业语义增强知识 生成的缺陷描述通过文本编码器投影至语义空间,生成领域知识偏置项 ;
步骤5.6:将非线性高阶语义特征 与领域知识偏置项 相加后,归一化得到语义完备的异常文本特征 ;
步骤5.7:将对齐后的最终特征 进行卷积变换,生成与文本模态对齐的视觉查询向量 ';
;
步骤5.8:将优化后的文本特征沿空间维度复制扩展,生成与视觉特征空间对齐的键向量 ;
;
其中, 表示优化后的文本特征,令 ;
步骤5.9:将与文本模态对齐的视觉查询向量 、与视觉特征空间对齐的键向量 通过卷积和非线性激活函数生成空间门控权重 ;
步骤5.10:将 分别分H头投影得到多头文本值向量 ,将 、 投影得多头视觉查询向量 ,多头文本键向量 ,表达式如下:;
;
;
其中: 为每个头的查询投影矩阵、 为每个头的键投影矩阵、 为每个头的值投影矩阵;
步骤5.11:将 、 、 输入H头注意力进行融合得到多头融合向量,表达式如下:
;
;
其中, 为多头输出融合权重;
步骤5.12:将空间门控权重 与多头融合向量 以及对齐后的最终特征进行残差加权融合,得优化后的视觉特征 ,表达式如下:;
其中, 为门控积。
8.根据权利要求1或2所述的一种基于跨模态自适应交互的少样本工业异常检测方法,其特征在于:所述根据对齐后的最终特征,正常语义投影,异常语义投影,优化后的视觉特征以及优化后的文本特征计算总损失,并利用总损失对工业异常检测模型参数更新,得到训练好的工业异常检测模型,具体包括:步骤6.1:初始化优化器,设置学习率,权重衰减,以及迭代的次数,执行步骤2‑步骤5进行前向传播,生成对齐后的最终特征 ,正常语义投影 与异常语义投影 、优化后的视觉特征 以及优化后的文本特征 ;
步骤6.2:根据对齐后的最终特征 ,正常语义投影 与异常语义投影 计算跨模态对比损失 ,表达式如下:;
其中, 为余弦相似度,为温度系数, 为正常样本数量,为批次, 、、 分别表示第i个正常样本对齐后的最终特征、正常语义投影和异常语义投影,e为自然常数;
步骤6.3:根据优化后的视觉特征 、优化后的文本特征 计算特征分布对齐损失函数,表达式如下:;
其中:为随机采样的空间位置集合,为视觉对齐投影头 为文本对齐投影头,表示优化后的视觉特征在空间位置(h,w)处的特征向量, 表示2的范数;
步骤6.4:根据正常语义投影 与异常语义投影 计算显式文本边界约束损失,表达式如下:;
其中:为最小间隔阈值, 表示最大值函数;
步骤6.5:根据跨模态对比损失 、特征分布对齐损失函数 以及显式文本边界约束损失 计算总损失 ,表达式如下:;
其中: 为边界损失权重, 为对齐损失权重;
步骤6.6:反向传播更新工业异常检测模型参数,依次完成训练的迭代的次数,保存训练好的双路径视觉编码器、多层级特征自适应融合适配器、跨模态动态提示嵌入器及跨模态交互模块的参数,得到训练好的工业异常检测模型。
9.根据权利要求1或2所述的一种基于跨模态自适应交互的少样本工业异常检测方法,其特征在于:所述将待检测的工业图像输入训练好的工业异常检测模型,得到对齐后的最终特征,异常语义投影、优化后的视觉特征以及优化后的文本特征,用于判断待检测的工业图像异常情况,具体包括:步骤7.1:将待检测的工业图像输入训练好的工业异常检测模型,得到对齐后的最终特征 ,异常语义投影 、优化后的视觉特征 以及优化后的文本特征 ;
步骤7.2:对优化后的视觉特征 沿空间维度展开,得到空间特征 ;
步骤7.3:计算空间特征 与异常语义投影 的余弦相似度并进行空间重塑,得到生成初始异常响应图 ,表达式如下: ;
;
步骤7.4:将初始异常响应图 通过上采样,并通过平均池化与层归一化得到动态可学习权重参数 ;
步骤7.5:将初始异常响应图 与权重参数 进行加权融合,得最终的异常响应图 ;
步骤7.6:根据对齐后的最终特征 、优化后的文本特征 计算图像级异常评分,表达式如下:;
其中:表示全局相似度与局部相似度最大池化值参数, 为余弦相似度;
步骤7.7:当图像级异常评分 大于阈值时,判定为异常情况。
10.根据权利要求2所述的一种基于跨模态自适应交互的少样本工业异常检测方法,其特征在于:所述根据待检测的工业图像的对齐后的最终特征,正常语义投影与异常语义投影、优化后的视觉特征以及优化后的文本特征,对异常情况进行定位,具体包括:步骤8.1:对优化后的视觉特征 沿空间维度展开,得到空间特征 ;
步骤8.2:计算空间特征 与异常语义投影 的余弦相似度并进行空间重塑,得到生成初始异常响应图 ,表达式如下:;
;
步骤8.3:将初始异常响应图 通过上采样,并通过平均池化与层归一化得到动态可学习权重参数 ;
步骤8.4:将初始异常响应图 与权重参数 进行加权融合,得最终的异常响应图 ;
步骤8.5:根据最终的异常响应图 ,计算异常掩膜 ,得到异常情况定位;
;
其中,为阈值,1为异常情况的像素坐标。