1.一种基于图像文字生成技术的害虫图像可解释性分类方法,其特征在于,通过生成文本描述对害虫图像分类结果进行解释以模仿农业专家诊断过程,具体包括如下步骤:步骤1、利用网络爬虫技术收集并构建具有害虫图像以及对应文本描述的多模态数据集;
步骤2、利用Faster‑RCNN模型识别害虫图像各个身体部件,并提取各个身体部件的特征;
步骤3、利用Transformer模型生成对害虫图像的文本描述,并将害虫图像的视觉特征和文本特征进行融合,形成联合特征;
步骤4、使用联合特征训练一个分类器预测害虫的类别标签;
步骤5、结合生成的文本描述以及预测的害虫类别标签,对害虫的分类结果进行文字层面的解释。
2.根据权利要求1所述基于图像文字生成技术的害虫图像可解释性分类方法,其特征在于,所述步骤1的具体过程如下:步骤1.1、采用网络爬虫技术在百度图像搜索引擎和谷歌图像搜索引擎中收集害虫图像数据,并建立害虫候选图像数据集;
步骤1.2、进行图像和文本预处理,得到最终所需的农业害虫多模态数据集。
3.根据权利要求2所述基于图像文字生成技术的害虫图像可解释性分类方法,其特征在于,所述步骤1.2的具体过程如下:步骤1.2.1、将所有图像转换为JPEG格式,并将无法正常显示的图像从候选图像数据集中删除;
步骤1.2.2、过滤掉像素尺寸小于448*448的图像,并调整所有符合条件的图像像素尺寸大小为448*448;
步骤1.2.3、使用图像标注工具Labelme标注所述害虫图像的身体部件,以获取部件的语义标签,并将标注文件保存为Json格式;
步骤1.2.4、邀请5名农业领域的专家,依据每一张图像中害虫身体部件的颜色、形状、材质、尺寸对害虫进行描述,形成5段文本描述;
步骤1.2.5、将每一张图像和与其对应的5段文本描述进行组合,形成图像文本对,最终构成农业害虫多模态数据集。
4.根据权利要求1所述基于图像文字生成技术的害虫图像可解释性分类方法,其特征在于,所述步骤2的具体过程如下:步骤2.1、将包含n张害虫图像的数据集表示为V={V1,...,Vi,...,Vn},另以表示第i张害虫图像Vi中的m个身体部件,其中第i张害虫图像第j个身体部件 包含两部分信息:(1) 表示身体部件的标签,M表示身体部件的类别总数;(2) 表示身体部件包围框的坐标;
步骤2.2、将Vi输入Faster‑RCNN模型,利用监督式训练得到 和 两个映射函数;
用于辨别害虫图像中各个身体部件的标签; 用于识别每个身体部件的包围框;该过程用公式表示为:其中,θd表示 的参数,θr表示 的参数;
步骤2 .3、利用 和 两个映射函数生成m个身体部件的特征:表示每一个身体部件的特征。
5.根据权利要求1所述基于图像文字生成技术的害虫图像可解释性分类方法,其特征在于,所述步骤3的具体过程如下:m×2048
步骤3.1、将表示害虫身体部件的特征 Fi∈R 输入Transformer模型的Encoder模块中,通过多头自注意力机制为每一个特征进行加权,获得m×2048特征的隐向量表示:Fhi∈R ,该过程用公式表示为:i m×2048
Fhi=Encoder(F;θenc),Fhi∈R (2);
其中,θenc表示Encoder(·)的参数;
步骤3.2、为Transformer的Decoder模块设计特定的文本输入;
i
令 表示对应害虫身体部件P的文本描述,其为
Decoder模块的输入,并将[Start]标识符填充到文本描述的起始位置;T表示文本描述的长度,L表示词汇表的长度;
令 表示Decoder模块的输出,其为Transformer模型生成的文本描述,并将[End]标识符填充到文本描述的末尾位置;
步骤3.3、将文本描述 与害虫身体部件特征的隐向量表示Fhi输入第一层Decoder模块,通过多头自注意力机制学习视觉特征和文本特征的联合表示 该过程用公式表示为:其中,θdec表示Decoder(·)的参数;
步骤3.4、经过Decoder模块N次堆叠,上一个Decoder模块的输出为下一个Decoder模块的输入,最终得到视觉特征和文本特征融合后的联合特征Fti;
步骤3.5、联合特征Fti经过一个两层的全连接层模块和Softmax(·)函数获得每一个词汇的概率分布,该过程用公式表示为:其中,θgen表示全连接层模块MLPgen(·)的参数;
步骤3.6、根据每个词汇的概率分布对词表进行查询,获得最终的输出
6.根据权利要求5所述基于图像文字生成技术的害虫图像可解释性分类方法,其特征在于,所述步骤4的具体过程如下:步骤4.1、所述分类器由N个堆叠的ClsDecoder模块组成;第一层ClsDecoder模块的输入由两部分组成,第一部分为 其为害虫图像每一个身体部件特征的均值,用于表示整个害虫图像的全局特征;第二部分为步骤3.3中第一层Decoder模块的输出 该过程用公式表示为:其中,θclsdec表示全连接层模块ClsDecoder(·)的参数, 为害虫图像的隐向量表示;
步骤4.2、经过ClsDecoder模块N次堆叠,上一层ClsDecoder模块的输出为下一层ClsDecoder模块的输入,最终害虫图像的隐向量表示Hci经过一个两层的全连接层模块和Softmax(·)函数获得每一个类别的概率分布,该过程用公式表示为:其中,θcls表示全连接层模块MLPcls(·)的参数,Z表示类别总数;
步骤4.3、根据每个类别的概率分布的最大值获取对应的类别标签。
7.根据权利要求6所述基于图像文字生成技术的害虫图像可解释性分类方法,其特征在于,所述步骤5中,结合步骤3.6生成的文本描述以及步骤4.3中预测的害虫类别标签,构造句式,以实现对害虫图像的可解释性分类;句式的具体格式为:因为观察到某某,所以将该害虫预测为某某类型。