利索能及
我要发布
收藏
专利号: 2023116484969
申请人: 华南师范大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种多模态嘲讽检测方法,其特征在于,包括以下步骤:

获得待测文档数据以及预设的多模态嘲讽检测模型,其中,所述待测文档数据包括待测文本以及待测图像,所述多模态嘲讽检测模型包括编码模块、图文对齐模块、粒度对齐模块、跨模态交互模块以及嘲讽检测模块;获得训练文档数据集,其中,所述训练文档数据集包括若干个训练文档数据,所述训练文档数据包括训练文本以及训练图像;

将所述训练文档数据集输入至所述编码模块,获得若干个训练文档数据的训练文本的起始文本全局特征向量以及训练图像的起始视觉全局特征向量;对所述训练文档数据集进行动量编码,获得若干个训练文档数据的训练文本的动量文本表示以及训练图像的动量视觉表示,其中,所述动量文本表示包括起始标识符对应的动量起始文本全局特征向量,所述动量视觉表示包括起始标识符对应的动量起始视觉全局特征向量;

采用相似度计算方法,根据若干个所述训练文档数据的起始文本全局特征向量、动量起始文本全局特征向量、起始视觉全局特征向量以及动量起始视觉全局特征向量,构建若干个所述训练文档数据的文本到图像相似度数据以及图像到文本相似度数据,其中,所述文本到图像相似度数据包括文本到图像相似度序列以及文本到图像软标签序列,所述图像到文本相似度数据包括图像到文本相似度序列以及图像到文本软标签序列,所述文本到图像软标签序列用于指示所述训练文档数据的动量起始文本全局特征向量与若干个动量起始视觉全局特征向量的相似度得分情况,所述图像到文本软标签序列用于指示所述训练文档数据动量起始视觉全局特征向量与若干个第一动量文本全局特征向量的相似度得分情况;

获得若干个所述训练文档数据的第一硬标签数据,所述第一硬标签数据用于指示所述训练文档数据中的训练文本与训练图像的相似度得分情况;根据若干个所述训练文档数据的文本到图像相似度数据、图像到文本相似度数据、第一硬标签数据以及预设的第一损失函数,获得第一损失值,根据所述第一损失值,对所述图文对齐模块进行训练,其中,所述第一损失函数为:式中, 为交叉熵损失值, 为散度损失值, 为交叉熵函数, 为文本到图像相似度序列, 为第一硬标签数据, 为图像到文本相似度, 为散度函数, 为图像到文本软标签序列, 为文本到图像软标签序列, 为第一损失值,为预设的超参数;

将所述待测文档数据输入至所述编码模块中,分别对所述待测文本以及待测图像进行编码处理,获得文本表示以及视觉表示;

将所述文本表示以视觉表示输入至所述图文对齐模块中进行图文对齐,获得文本对齐表示以及视觉对齐表示;

将所述文本对齐表示以及视觉对齐表示输入至粒度对齐模块中进行重构,获得文本重构表示以及视觉重构表示;

将所述文本重构表示以及视觉重构表示输入至所述跨模态交互模块中进行特征交互,获得跨模态特征表示;

将所述跨模态特征表示输入至所述嘲讽检测模块中进行嘲讽检测,获得所述待测文档数据的嘲讽检测结果。

2.根据权利要求1所述的多模态嘲讽检测方法,其特征在于,所述将所述待测文档数据输入至所述编码模块中,分别对所述待测文本以及待测图像进行编码处理,获得文本表示以视觉表示,包括步骤:在所述待测文本的文本起始位置加入起始标识符,文本结束位置加入结束标识符,根据预设的文本编码算法,获得文本表示,其中,所述文本表示包括起始标识符对应的起始文本全局特征向量以及结束标识符对应的结束文本全局特征向量,所述文本编码算法为:式中,T为文本表示, 为文本编码函数,[CLS]为起始标识符, 为待测文本,[SEP]为结束标识符;

对所述待测图像进行重塑,构建所述待测图像的图像重塑序列,在所述图像重塑序列的元素起始位置加入起始标识符,根据预设的视觉编码算法,获得视觉表示,其中,所述视觉表示包括起始标识符对应的起始视觉全局特征向量,所述视觉编码算法为:式中,V为视觉表示, 为线性变换函数, 为视觉编码函数,I为图像重塑序列。

3.根据权利要求1所述的多模态嘲讽检测方法,其特征在于,所述采用相似度计算方法,根据若干个所述训练文档数据的起始文本全局特征向量、动量起始文本全局特征向量、起始视觉全局特征向量以及动量起始视觉全局特征向量,构建若干个所述训练文档数据的文本到图像相似度数据以及图像到文本相似度数据,包括步骤:分别将若干个动量起始文本全局特征向量以及若干个动量起始视觉全局特征向量进行组合,构建动量起始文本全局特征向量队列以及动量起始视觉全局特征向量队列;

根据若干个所述训练文档数据的起始文本全局特征向量、动量起始文本全局特征向量队列以及预设的文本到图像相似度算法,获得若干个所述训练文档数据的文本到图像相似度序列,其中,所述文本到图像相似度序列包括所述训练文档数据的起始文本全局特征向量与若干个动量图像全局特征向量的相似度向量,所述文本到图像相似度算法为:式中, 为训练文档数据的起始文本全局特征向量与第k个动量图像全局特征向量的相似度向量, 为相似度函数, 为起始文本全局特征向量, 为动量起始视觉全局特征向量队列中第k个动量起始视觉全局特征向量,K为动量起始视觉全局特征向量队列中动量起始视觉全局特征向量的总数;

根据若干个训练文档数据的训练图像的起始视觉全局特征向量、动量起始视觉全局特征向量队列以及预设的图像到文本相似度算法,获得若干个训练文档数据的图像到文本相似度序列,其中,所述图像到文本相似度序列包括所述训练文档数据的起始视觉全局特征向量与若干个动量起始文本全局特征向量的相似度向量,所述图像到文本相似度算法为:式中, 为训练文档数据的起始视觉全局特征向量与第j个动量起始文本全局特征向量的相似度向量, 为起始视觉全局特征向量, 为动量起始文本全局特征向量队列中第j个动量起始文本全局特征向量,J为动量起始文本全局特征向量队列中动量起始视觉全局特征向量的总数;

根据若干个训练文档数据的动量起始文本全局特征向量、动量起始视觉全局特征向量队列以及预设的文本到图像软标签算法,获得若干个训练文档数据的文本到图像软标签序列,其中,所述文本到图像软标签序列包括所述训练文档数据的起始文本全局特征向量与若干个动量图像全局特征向量的软标签向量,所述文本到图像软标签算法为:式中, 为训练文档数据的动量起始文本全局特征向量与第k个动量图像全局特征向量的相似度向量, 为动量起始文本全局特征向量;

根据若干个训练文档数据的动量起始视觉全局特征向量、动量起始文本全局特征向量队列以及预设的图像到文本软标签算法,获得若干个训练文档数据的图像到文本软标签序列,其中,所述图像到文本软标签序列包括所述训练文档数据的起始视觉全局特征向量与若干个动量起始文本全局特征向量的软标签向量,所述图像到文本软标签算法为:式中, 为训练文档数据的动量起始视觉全局特征向量与第j个动量起始文本全局特征向量的相似度向量, 为动量起始文本全局特征向量。

4.根据权利要求2所述的多模态嘲讽检测方法,其特征在于,所述将所述文本对齐表示以及视觉对齐表示输入至粒度对齐模块中进行重构,获得文本重构表示以及视觉重构表示,包括步骤:根据所述文本对齐表示以及视觉对齐表示,构建多模态共享空间,获得所述多模态共享空间对应的多模态共享参数;

根据所述文本对齐表示、多模态共享参数以及预设的文本重构算法,获得文本重构表示,其中,所述文本重构表示包括起始标识符对应的起始文本重构特征向量,所述文本重构算法为:式中,为文本重构表示, 为第一注意力机制函数, 为起始文本全局特征向量, 为结束文本全局特征向量,C为所述多模态共享参数;

根据所述视觉对齐表示、多模态共享参数以及预设的视觉重构算法,获得视觉重构表示,其中,所述视觉重构表示包括起始标识符对应的起始视觉重构特征向量,所述视觉重构算法为:式中, 为视觉重构表示, 为第二注意力机制函数, 为起始视觉全局特征向量。

5.根据权利要求4所述的多模态嘲讽检测方法,其特征在于,所述将所述文本对齐表示以及视觉对齐表示输入至粒度对齐模块中进行重构,获得文本重构表示以及视觉重构表示之前,包括步骤:训练所述粒度对齐模块,所述训练所述粒度对齐模块,包括步骤:获得若干个所述训练文档数据的起始文本重构特征向量以及起始视觉重构特征向量,根据若干个所述训练文档数据的起始文本全局特征向量、起始文本重构特征向量、起始视觉全局特征向量、起始视觉重构特征向量以及预设的重构相关性算法,获得若干个所述训练文档数据的文本重构相关性数据以及视觉重构相关性数据,其中,所述文本重构相关性算法为:式中, 为文本重构相关性数据, 为视觉重构相关性数据, 为线性正切函数,为起始文本重构特征向量, 为起始视觉重构特征向量;

获得若干个所述训练文档数据的第二硬标签数据,其中,所述第二硬标签数据用于指示所述训练文档数据的起始文本全局特征向量与所有的起始文本重构特征向量的重构相关性得分情况,以及起始视觉全局特征向量与所有的起始视觉重构特征向量的重构相关性得分情况;

根据若干个所述训练文档数据的文本重构相关性数据、视觉重构相关性数据、第二硬标签数据以及预设的第二损失函数,获得第二损失值,根据所述第二损失值,对所述粒度对齐模块进行训练,其中,所述第二损失函数为:式中, 为第二损失值, 为交叉熵函数, 为第二硬标签数据。

6.根据权利要求4所述的多模态嘲讽检测方法,其特征在于:所述跨模态特征表示包括图像感知的文本特征以及文本感知的视觉特征;

所述将所述文本重构表示以及视觉重构表示输入至所述跨模态交互模块中进行特征交互,获得跨模态特征表示,包括步骤:根据所述文本重构表示、视觉重构表示中的起始视觉重构特征向量以及预设的第一跨模态特征提取算法,获得图像感知的文本特征,其中,所述第一跨模态特征提取算法为:式中,为所述图像感知的文本特征, 为起始视觉重构特征向量;

根据所述视觉重构表示、文本重构表示中的起始文本重构特征向量以及预设的第二跨模态特征提取算法,获得文本感知的视觉特征,其中,所述第二跨模态特征提取算法为:式中,为所述文本感知的视觉特征, 为起始文本全局特征向量。

7.根据权利要求6所述的多模态嘲讽检测方法,其特征在于,所述将所述跨模态特征表示输入至所述嘲讽检测模块中进行嘲讽检测,获得所述待测文档数据的嘲讽检测结果,包括步骤:根据所述图像感知的文本特征、文本感知的视觉特征以及预设的嘲讽概率向量算法,获得嘲讽概率向量,根据所述嘲讽概率向量,获得所述待测文档数据的嘲讽检测结果,其中,所述嘲讽概率向量算法为:式中,y为所述嘲讽概率向量, 为归一化指数函数,W为预设的权重参数,b为预设的偏置参数。

8.一种多模态嘲讽检测装置,其特征在于,包括:

数据获取模块,用于获得待测文档数据以及预设的多模态嘲讽检测模型,其中,所述待测文档数据包括待测文本以及待测图像,所述多模态嘲讽检测模型包括编码模块、图文对齐模块、粒度对齐模块、跨模态交互模块以及嘲讽检测模块;获得训练文档数据集,其中,所述训练文档数据集包括若干个训练文档数据,所述训练文档数据包括训练文本以及训练图像;

将所述训练文档数据集输入至所述编码模块,获得若干个训练文档数据的训练文本的起始文本全局特征向量以及训练图像的起始视觉全局特征向量;对所述训练文档数据集进行动量编码,获得若干个训练文档数据的训练文本的动量文本表示以及训练图像的动量视觉表示,其中,所述动量文本表示包括起始标识符对应的动量起始文本全局特征向量,所述动量视觉表示包括起始标识符对应的动量起始视觉全局特征向量;

采用相似度计算方法,根据若干个所述训练文档数据的起始文本全局特征向量、动量起始文本全局特征向量、起始视觉全局特征向量以及动量起始视觉全局特征向量,构建若干个所述训练文档数据的文本到图像相似度数据以及图像到文本相似度数据,其中,所述文本到图像相似度数据包括文本到图像相似度序列以及文本到图像软标签序列,所述图像到文本相似度数据包括图像到文本相似度序列以及图像到文本软标签序列,所述文本到图像软标签序列用于指示所述训练文档数据的动量起始文本全局特征向量与若干个动量起始视觉全局特征向量的相似度得分情况,所述图像到文本软标签序列用于指示所述训练文档数据动量起始视觉全局特征向量与若干个第一动量文本全局特征向量的相似度得分情况;

获得若干个所述训练文档数据的第一硬标签数据,所述第一硬标签数据用于指示所述训练文档数据中的训练文本与训练图像的相似度得分情况;根据若干个所述训练文档数据的文本到图像相似度数据、图像到文本相似度数据、第一硬标签数据以及预设的第一损失函数,获得第一损失值,根据所述第一损失值,对所述图文对齐模块进行训练,其中,所述第一损失函数为:式中, 为交叉熵损失值, 为散度损失值, 为交叉熵函数, 为文本到图像相似度序列, 为第一硬标签数据, 为图像到文本相似度, 为散度函数, 为图像到文本软标签序列, 为文本到图像软标签序列, 为第一损失值,为预设的超参数;

编码模块,用于将所述待测文档数据输入至所述编码模块中,分别对所述待测文本以及待测图像进行编码处理,获得文本表示以及视觉表示;

对齐模块,用于将所述文本表示以视觉表示输入至所述图文对齐模块中进行图文对齐,获得文本对齐表示以及视觉对齐表示;

重构模块,用于将所述文本对齐表示以及视觉对齐表示输入至粒度对齐模块中进行重构,获得文本重构表示以及视觉重构表示;

跨模态特征提取模块,用于将所述文本重构表示以及视觉重构表示输入至所述跨模态交互模块中进行特征交互,获得跨模态特征表示;

嘲讽检测模块,用于将所述跨模态特征表示输入至所述嘲讽检测模块中进行嘲讽检测,获得所述待测文档数据的嘲讽检测结果。

9.一种计算机设备,其特征在于,包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的多模态嘲讽检测方法的步骤。