买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于多模态深度学习的冒犯性评论识别方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于多模态深度学习的冒犯性评论识别方法

￥14400

专利号： 2023113405236

申请人：广东工业大学

专利类型：发明专利

专利状态：已下证

更新日期：2025-02-06

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于多模态深度学习的冒犯性评论识别方法，其特征在于从多种模态的信息中提取特征，同时将这些特征划分为多种粒度进行融合，然后使用融合后的特征进行冒犯性评论识别，该方法包括以下步骤：第一步，构建冒犯性评论数据集：首先从利用爬虫爬取数据、整合现有的相关数据集等多个渠道获取原始的冒犯性评论数据，将每一条原始的冒犯性评论数据表示为一个二元组；然后采用人工操作和使用第三方工具包两种方法，根据每一个二元组构建词语集合；接着对原始的冒犯性评论数据进行标注；最后将每一个二元组与其对应的词语集合和标注构造成四元组，所有的四元组构成一个冒犯性评论数据集；

第二步，构建冒犯性评论识别模型：首先运用Bert（Bidirectional Encoder from Transformers）模型对输入的文本模态数据进行编码，同时构建快速视觉几何群神经网络（Fast‑Visual Geometry Group Network，Fast‑VGG）对输入的图像模态数据进行特征提取；然后构建门控循环图卷积神经网络（Gate Recurrent‑ Graph Convolutional Network，G‑GCN）融合不同模态的特征向量；最后根据G‑GCN融合得到的特征向量，运用激活函数判断该评论是否具有冒犯性；

第三步，设置模型的所有相关参数：设置特征图的维度、学习率的大小、批处理的大小、优化器的选择等与模型相关的参数；将训练集和验证集加载至该模型中进行训练，得该模型训练后的最优参数；

第四步，运用该冒犯性评论识别模型，对评论进行冒犯性识别，将测试集输入到训练好的冒犯性评论识别模型中进行测试，使用机器学习中的准确率和MMR作为该冒犯性评论识别模型在执行冒犯性评论识别任务时的评估指标，然后将该冒犯性评论识别模型运用于不同数据集的冒犯性评论识别任务当中。

2.根据权利要求1所述的基于多模态深度学习的冒犯性评论识别方法，其特征在于，所述的第一步中，构建冒犯性评论数据集的步骤包括有：（1）从利用爬虫爬取数据、整合现有的相关数据集等多个渠道获取原始的冒犯性评论数据；每一条评论表示为一个二元组，其中第一元txt表示评论中的文本，第二元img表示评论中的图片；

（2）采取特定方法从二元组中提取出图片标签label，label为描述img内容的词语集合，表示为；其中所述的特定方法，包括人工参照txt和img，描述出该img的label；或者借助第三方工具包从img中描述出label；所述的第三方工具包是一种检测图片中的对象实例的工具包，包括但不限于Faster R‑CNN工具包；这种工具包以img为输入，即可自动描述出描述img中的对象实例的label；

（3）构建类别标签offensive，采用人工标注的方法，将每个二元组标注为“冒犯”或“非冒犯”类别；然后将每个二元组及其对应的label和offensive构造四元组d=；所有的四元组构成一个数据集，其中n为数据集的评论条数；然后将D按照一定的比例划分为训练集、验证集和测试集。

3.根据权利要求1所述的基于多模态深度学习的冒犯性评论识别方法，其特征在于，所述的第二步中，构建冒犯性评论识别模型的步骤包括有：（1）运用Bert模型对txt和label进行编码；

（2）构建Fast‑VGG对img进行特征提取：将img经过Fast‑VGG中多层卷积池化处理后得到的特征图利用全局平均池化（Global Average Pooling，GAP）进行压缩，得到表示img的特征向量；

（3）构建G‑GCN融合不同模态的特征向量：基于门控循环单元（Gate Recurrent Unit，GRU）和图卷积神经网络（Graph Convolutional Network，GCN）的网络结构，对两种网络的输出进行融合，构建G‑GCN；通过G‑GCN提取txt和label文本模态的特征向量，然后与Fast‑VGG提取的图像模态的特征向量进行融合；

（4）根据G‑GCN融合得到的特征向量，对评论是否具有冒犯性进行识别。

4.根据权利要求3所述的基于多模态深度学习的冒犯性评论识别方法，其特征在于，所述的构建Fast‑VGG对img进行特征提取的步骤包括有：（1）构建Fast‑VGG，将img作为Fast‑VGG的输入，其经过多层卷积池化处理后得到特征图V；其中Fast‑VGG基于视觉几何群神经网络（Visual Geometry Group Network‑16，VGG‑

16）结构改进得到；

（2）将特征图V作为全局平均池化（Global Average Pooling，GAP）的输入，将其压缩成n个1×1向量放入数组D ，；

（3）将D中的所有元素进行向量拼接，得到img的特征向量：

其中为权重矩阵，用于对拼接后的向量进行降维；是一个用于向量拼接的函数。

5.根据权利要求4所述的基于多模态深度学习的冒犯性评论识别方法，其特征在于，所述的构建Fast‑VGG的步骤包括有：（1）构造8个卷积层，其卷积核大小为3×3，根据通道数将其划分为4个block，每个block包含2个卷积层，在每个block后连接最大池化层减少参数量；其中第一个block表示为Conv1，与之相邻的block表示为Conv2，与Conv2相邻的block表示为Conv3，与Conv3相邻的block表示为Conv4；与VGG‑16相比，Fast‑VGG删除了第5组卷积层以及第4组卷积层的最后一个3×3卷积，减少了无关特征信息的干扰，降低了模型的复杂度和权重参数；

（2）在Conv4相邻的最大池化层连接GAP，将卷积层输出的特征图映射为n个1×1向量；

与VGG‑16相比，Fast‑VGG利用GAP替代VGG‑16中的全连接层，直接计算卷积池化后n个通道的特征图中所有像素的平均值，减少了全连接层计算时产生的大量参数；

（3）将GAP得到的n个1×1向量拼接成1个1×n向量作为Fast‑VGG输出。

6.根据权利要求3所述的基于多模态深度学习的冒犯性评论识别方法，其特征在于，所述的构建G‑GCN融合不同模态的特征向量的步骤包括有：（1）将和进行向量拼接，得到拼接后的向量；其中为权重

矩阵，用于对拼接后的向量进行降维；是一个用于向量拼接的函数；

（2）将作为门控循环单元（Gate Recurrent Unit，GRU）的输入，提取txt和label中的时序特征；

（3）基于label构建一个图G，运用图卷积神经网络GCN（Graph Convolutional Networks）去提取label中的空间特征；

（4）将GRU提取的时序特征作为粒度，将GCN提取的空间特征作为粒度，将Fast‑VGG提取的图像特征作为粒度，运用融合多种粒度；其中粒度、为文本模态的特征向量，为图像模态的特征向量。

7.根据权利要求6所述的基于多模态深度学习的冒犯性评论识别方法，其特征在于，所述的运用融合多种粒度的步骤包括有：（1）将、、两两之间通过门控注意力机制（Gated‑Attention，GA）进行融合，得到不同粒度融合后的粒度和，其融合过程如下：（2）通过融合、、：

得到融合多种粒度后的特征向量。

8.根据权利要求3所述的基于多模态深度学习的冒犯性评论识别方法，其特征在于，所述根据特征向量，对评论是否具有冒犯性进行识别的具体方法为：通过G‑GCN得到融合多种粒度后的特征向量，使用激活函数，计算具有冒犯性的概率，其计算公式如下：其中为权重矩阵；

若的值大于等于0.5，判断其具有冒犯性；反之则没有冒犯性。

9.一种基于多模态深度学习的冒犯性评论识别装置，用于运行权利要求1‑8任一所述的基于多模态深度学习的冒犯性评论识别方法，其特征在于，包括构建冒犯性评论数据集模块、构建基于多模态深度学习的冒犯性评论识别模块、模型训练模块、冒犯性评论识别模型应用模块；

所述构建冒犯性评论数据集模块用于：首先从利用爬虫爬取数据、整合现有的相关数据集等多个渠道获取原始的冒犯性评论数据，将每一条原始的冒犯性评论数据表示为一个二元组；然后采用人工操作和使用第三方工具包两种方法，根据每一个二元组构建词语集合；接着对原始的冒犯性评论数据进行标注；最后将每一个二元组与其对应的词语集合和标注构造成四元组，所有的四元组构成一个冒犯性评论数据集；所述构建基于多模态深度学习的冒犯性评论识别模块用于：首先运用Bert模型对输入的文本模态数据进行编码，构建快速视觉几何群神经网络Fast‑VGG对输入的图像模态数据进行特征提取；然后构建门控循环图卷积神经网络G‑GCN融合不同模态的特征向量；最后根据G‑GCN融合得到的特征向量，运用激活函数判断该评论是否具有冒犯性；所述模型训练模块用于：初始化模型的权重，包括权重矩阵和偏置项，设置模型相关的超参数，包括特征图的维度、学习率的大小、批处理的大小和优化器的选择；将训练集和验证集加载至该模型中进行训练，得该模型训练后的最优参数；所述冒犯性评论识别模型应用模块用于：运用该冒犯性评论识别模型，对评论进行冒犯性识别，将测试集输入到训练好的冒犯性评论识别模型中进行测试，使用机器学习中的准确率和MMR作为该冒犯性评论识别模型在执行冒犯性评论识别任务时的评估指标，然后将该冒犯性评论识别模型运用于不同数据集的冒犯性评论识别任务当中。