买专利、卖专利、专利购买、专利交易、专利出售、高企申报-多模态嘲讽检测方法、装置、计算机设备以及存储介质

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

多模态嘲讽检测方法、装置、计算机设备以及存储介质

￥16200

专利号： 202410101338X

申请人：华南师范大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-06-16

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种多模态嘲讽检测方法，其特征在于，包括以下步骤：

获得待测文档数据以及预设的多模态嘲讽检测模型，其中，所述待测文档数据包括待测文本以及待测图像，所述多模态嘲讽检测模型包括编码模块、门控自注意力模块、跨模态特征配准模块、跨模态图推理模块、模态划分权重计算模块以及嘲讽检测模块；

将所述待测文档数据输入至所述编码模块中，分别对所述待测文本以及待测图像进行编码处理，获得文本编码表示以及视觉编码表示；

将所述文本编码表示以及视觉编码表示输入至所述门控自注意力模块中进行特征提取，获得文本门控自注意力特征表示以及视觉门控自注意力特征表示；

将所述文本编码表示以及视觉编码表示输入至所述跨模态特征配准模块中进行特征配准，获得跨模态局部特征配准表示以及跨模态全局特征配准表示；

将所述跨模态局部特征配准表示以及跨模态全局特征配准表示输入至所述跨模态图推理模块中进行特征推理，获得跨模态图推理特征表示；

将所述跨模态图推理特征表示、文本门控自注意力特征表示以及视觉门控自注意力特征表示输入至所述模态划分权重计算模块中进行权重计算，获得模态划分权重参数矩阵；

将所述跨模态图推理特征表示、文本门控自注意力特征表示、视觉门控自注意力特征表示以及模态划分权重参数矩阵输入至所述嘲讽检测模块中，根据所述跨模态图推理特征表示、文本门控自注意力特征表示、视觉门控自注意力特征表示、模态划分权重参数矩阵以及预设的特征融合算法，获得特征融合表示，其中，所述特征融合算法为：式中，为所述特征融合表示，为所述跨模态图推理特征表示对应的第一权重参数，为所述文本门控自注意力特征表示对应的第二权重参数，为所述视觉门控自注意力特征表示对应的第三权重参数，为所述文本门控自注意力特征表示，为所述跨模态图推理特征表示，为所述视觉门控自注意力特征表示，为连接操作符号；

根据所述特征融合表示以及预设的嘲讽概率向量算法，获得预测嘲讽概率向量，根据所述预测嘲讽概率向量，获得所述待测文档数据的嘲讽检测结果，其中，所述嘲讽概率向量算法为：式中，为所述预测嘲讽概率向量，为归一化指数函数，为多层

感知机函数。

2.根据权利要求1所述的多模态嘲讽检测方法，其特征在于：所述编码模块包括词嵌入模块以及目标检测模块；

所述将所述待测文档数据输入至所述编码模块中，分别对所述待测文本以及待测图像进行编码处理，获得文本编码表示以及视觉编码表示，包括步骤：将所述待测文本输入至所述词嵌入模块中进行编码处理，获得所述文本编码表示，其中，所述文本编码表示包括若干个单词的词嵌入向量；

将所述待测图像划分为若干个图像子区域，将若干个所述图像子区域输入至所述目标检测模块进行目标检测，获得所述视觉编码表示，其中，所述视觉编码表示包括若干个图像子区域的检测向量。

3.根据权利要求2所述的多模态嘲讽检测方法，其特征在于，所述将所述文本编码表示以及视觉编码表示输入至所述门控自注意力模块中进行特征提取，获得文本门控自注意力特征表示以及视觉门控自注意力特征表示，包括步骤：分别将所述文本编码表示中的若干个单词的词嵌入向量以及所述视觉编码表示中若干个图像子区域的检测向量作为输入向量，构建所述输入向量的注意力矩阵集合，根据所述注意力矩阵集合以及预设的门控掩码算法，获得所述输入向量的门控掩码集合，其中，所述注意力矩阵集合包括第一注意力矩阵、第二注意力矩阵以及第三注意力矩阵，所述门控掩码集合包括第一门控掩码以及第二门控掩码，所述门控掩码算法为：式中，为第i个输入向量的第一注意力矩阵，为第i个输入向量的第二注意力矩阵，为第i个输入向量的第一门控掩码，为第i个输入向量的第二门控掩码，、、、分别为所述门控自注意力模块的第一权重参数、第二权重参数、第三权重参数以及第四权重参数，为激活函数；

根据所述注意力矩阵集合、门控掩码集合以及预设的多头自注意力算法，获得所述输入向量的若干个自注意力头的输出向量，将若干个所述自注意力头的输出向量进行拼接处理，获得所述输入向量的注意力拼接向量，其中，所述多头自注意力算法为：式中，为第h个自注意力头的输出向量，为第i个输入向量的第三注意力矩阵，为维度参数，T为偏置符号，为归一化指数函数；

根据所述输入向量的注意力拼接向量以及预设的残差连接算法，获得所述输入向量的残差连接向量，构建文本残差连接表示以及视觉残差连接表示，其中，所述文本残差连接表示包括若干个单词的文本残差连接向量，所述视觉残差连接表示包括若干个图像子区域的视觉残差连接向量，所述残差连接算法为：式中，为第i个输入向量的残差连接向量，为第i个输入向量的注意力

拼接向量，为第i个输入向量，为残差函数；

对所述输入向量的残差连接向量进行平均池化处理，获得所述输入向量的池化处理后的平均池化向量，作为门控自注意力特征向量，构建所述文本门控自注意力特征表示以及所述视觉门控自注意力特征表示，其中，所述文本门控自注意力特征表示包括若干个单词的文本门控自注意力向量，所述视觉门控自注意力特征表示包括若干个所述图像子区域的视觉门控自注意力向量。

4.根据权利要求3所述的多模态嘲讽检测方法，其特征在于，所述将所述文本门控自注意力特征表示以及视觉门控自注意力特征表示输入至所述跨模态特征配准模块中进行特征配准，获得跨模态特征配准表示，包括步骤：根据所述文本编码表示、视觉编码表示以及预设的正向词关联视觉特征提取算法，获得正向词关联视觉特征表示，其中，所述正向词关联视觉特征表示包括若干个单词的正向词关联视觉特征向量，所述正向词关联视觉特征提取算法为：式中，为第i个单词的正向词关联视觉特征向量，为反向温度系数，K为图像子区域的数目，为第i个单词的词嵌入向量，为第j个图像子区域的检测向量，为维度参数，T为偏置符号；

根据所述正向词关联视觉特征表示、文本编码表示以及预设的跨模态局部特征配准表示提取算法，获得所述跨模态局部特征配准表示，其中，所述跨模态局部特征配准表示包括若干个单词的跨模态局部特征配准向量，所述跨模态局部特征配准表示提取算法为：式中，为第i个单词的跨模态局部特征配准向量，为所述跨模态特征配准模块的第一权重参数；

分别对所述文本编码表示以及视觉编码表示进行全局特征提取，获得文本全局特征表示以及视觉全局特征表示，根据所述文本全局特征表示、视觉全局特征表示以及预设的跨模态全局特征配准表示提取算法，获得所述跨模态全局特征配准表示，其中，所述跨模态全局特征配准表示提取算法为：式中，为所述跨模态全局特征配准表示，为所述跨模态特征配准模块的第二权重参数，为所述视觉全局特征表示，为所述文本全局特征表示。

5.根据权利要求4所述的多模态嘲讽检测方法，其特征在于，所述将所述文本门控自注意力特征表示以及视觉门控自注意力特征表示输入至所述跨模态特征配准模块中进行特征配准，获得跨模态特征配准表示，包括步骤：将所述跨模态局部特征配准表示中的若干个单词的跨模态局部特征配准向量以及跨模态全局特征配准表示作为节点，构建跨模态特征图，获得所述跨模态特征图对应的节点矩阵以及边矩阵，其中，所述节点矩阵包括若干个节点，所述边矩阵包括若干个节点之间的边向量，所述边向量为：式中，为第u个节点与第v个节点之间的边向量，、分别为第u个节点以及第v个节点，、分别为传入节点和传出节点的线性变换参数；

根据所述跨模态特征图对应的节点矩阵、边矩阵以及预设的迭代更新算法，对所述跨模态特征图进行迭代更新，获得更新后的跨模态特征图对应的节点矩阵，对所述更新后的跨模态特征图对应的节点矩阵进行收敛，获得初始跨模态图推理特征表示，对所述初始跨模态图推理特征表示进行平均池化处理，获得所述跨模态图推理特征表示，其中，所述迭代更新算法为：式中，为第t+1步迭代更新后的第u个节点，为第t+1步迭代更新后的边矩阵，、分别为第u个节点以及第v个节点，为线性激活函数。

6.根据权利要求5所述的多模态嘲讽检测方法，其特征在于，所述将所述跨模态图推理特征表示、文本门控自注意力特征表示以及视觉门控自注意力特征表示输入至所述模态划分权重计算模块中进行权重计算，获得模态划分权重参数矩阵，包括步骤：将所述跨模态图推理特征表示、文本门控自注意力特征表示以及视觉门控自注意力特征表示进行多维拼接处理，获得多维拼接特征表示，根据预设的挤压运算算法，对所述多维拼接特征表示进行挤压运算，获得多维挤压特征表示，其中，所述挤压运算算法为：式中，为所述多维挤压特征表示，为所述多维拼接特征表示，为挤压运算函数；

根据所述多维挤压特征表示以及预设的模态划分权重计算算法，获得模态划分权重参数矩阵，其中，所述模态划分权重参数矩阵包括所述跨模态图推理特征表示对应的第一权重参数、所述文本门控自注意力特征表示对应的第二权重参数以及所述视觉门控自注意力特征表示对应的第三权重参数，所述模态划分权重计算算法为：式中，为所述模态划分权重参数矩阵，、分别为所述多维拼接特征表示，为sigmoid激活函数，为线性激活函数。

7.根据权利要求6所述的多模态嘲讽检测方法，其特征在于，还包括步骤：训练所述多模态嘲讽检测模型，所述多模态嘲讽检测模型，包括步骤：获得训练文档数据集，将所述训练文档数据集输入至所述多模态嘲讽检测模型，获得若干个训练文档数据的文本编码表示、视觉编码表示、文本残差连接表示、视觉残差连接表示、文本门控自注意力特征表示、视觉门控自注意力特征表示、正向词关联视觉特征表示、模态划分权重参数矩阵以及预测嘲讽概率向量，其中，所述训练文档数据集包括若干个训练文档数据，所述训练文档数据包括训练文本以及训练图像；

根据若干个所述训练文档数据的文本编码表示、视觉编码表示以及预设的反向词关联视觉特征提取算法，获得若干个所述训练文档数据的反向词关联视觉特征表示，根据若干个所述训练文档数据的正向词关联视觉特征表示、反向词关联视觉特征表示、文本编码表示以及预设的第一损失函数，获得第一损失值，其中，所述反向词关联视觉特征表示包括若干个单词的反向词关联视觉特征向量，所述反向词关联视觉特征提取算法为：式中，为第i个单词的反向词关联视觉特征向量；

所述第一损失函数为：

式中，为所述第一损失值，为相似度函数，为控制相似性差值边际参数，为取绝对值函数；

根据若干个训练文档数据的文本残差连接表示、视觉残差连接表示、文本门控自注意力特征表示、视觉门控自注意力特征表示以及预设的跨模态模糊性得分计算算法，获得若干个训练文档数据的跨模态模糊性得分，构建跨模态模糊性得分集合，根据所述跨模态模糊性得分集合、模态划分权重参数矩阵以及预设的第二损失函数，获得第二损失值，其中，所述跨模态模糊性得分计算算法为：式中，为第a个训练文档数据的跨模态模糊性得分，为第a个训练文档

数据的训练文本与训练图像的变分后验分布，为第a个训练文档数据的视觉残差连接向量，为第a个训练文档数据的视觉门控自注意力特征表示，为第a个训练文档数据的文本残差连接向量，为第a个训练文档数据的文本门控自注意力特征表示，A为所述训练文档数据集中训练文档数据的数目，为KL散度函数；

所述第二损失函数为：

式中，为所述第一损失值，为所述跨模态模糊性得分集合，为散度函数；

获得若干个所述训练文档数据的真实嘲讽概率向量，根据若干个所述训练文档数据的预测嘲讽概率向量、真实嘲讽概率向量以及预设的第三损失函数，获得第三损失值，根据所述第一损失值、第二损失值以及第三损失值，对所述多模态嘲讽检测模型进行训练，其中，所述第三损失函数为：式中，为所述第三损失值，y为真实嘲讽概率向量。

8.一种多模态嘲讽检测装置，其特征在于，包括：

数据获取模块，用于获得待测文档数据以及预设的多模态嘲讽检测模型，其中，所述待测文档数据包括待测文本以及待测图像，所述多模态嘲讽检测模型包括编码模块、门控自注意力模块、跨模态特征配准模块、跨模态图推理模块、模态划分权重计算模块以及嘲讽检测模块；

文档编码模块，用于将所述待测文档数据输入至所述编码模块中，分别对所述待测文本以及待测图像进行编码处理，获得文本编码表示以及视觉编码表示；

注意力提取模块，用于将所述文本编码表示以及视觉编码表示输入至所述门控自注意力模块中进行特征提取，获得文本门控自注意力特征表示以及视觉门控自注意力特征表示；

特征配准模块，用于将所述文本编码表示以及视觉编码表示输入至所述跨模态特征配准模块中进行特征配准，获得跨模态局部特征配准表示以及跨模态全局特征配准表示；

图推理模块，用于将所述跨模态局部特征配准表示以及跨模态全局特征配准表示输入至所述跨模态图推理模块中进行特征推理，获得跨模态图推理特征表示；

权重计算模块，用于将所述跨模态图推理特征表示、文本门控自注意力特征表示以及视觉门控自注意力特征表示输入至所述模态划分权重计算模块中进行权重计算，获得模态划分权重参数矩阵；

检测模块，用于将所述跨模态图推理特征表示、文本门控自注意力特征表示、视觉门控自注意力特征表示以及模态划分权重参数矩阵输入至所述嘲讽检测模块中，根据所述跨模态图推理特征表示、文本门控自注意力特征表示、视觉门控自注意力特征表示、模态划分权重参数矩阵以及预设的特征融合算法，获得特征融合表示，其中，所述特征融合算法为：式中，为所述特征融合表示，为所述跨模态图推理特征表示对应的第一权重参数，为所述文本门控自注意力特征表示对应的第二权重参数，为所述视觉门控自注意力特征表示对应的第三权重参数，为所述文本门控自注意力特征表示，为所述跨模态图推理特征表示，为所述视觉门控自注意力特征表示，为连接操作符号；

感知机函数。

9.一种计算机设备，其特征在于，包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的多模态嘲讽检测方法的步骤。