1.一种基于相关性信息扩展的多模态虚假新闻识别方法,其特征在于,包括:
获取目标新闻的新闻文本及图像;
提取所述目标新闻图像的语义表示以及颜色直方图向量,并将所述语义表示以及颜色直方图向量进行融合,获得视觉融合特征;
基于所述目标新闻的新闻文本进行特征提取,获得新闻文本特征;
提取目标新闻图像的OCR文本,并对目标新闻的OCR文本进行向量化表示,获得目标新闻OCR文本的词向量矩阵;并基于所述OCR文本的词向量矩阵,提取OCR文本特征;
计算所述新闻文本特征和OCR文本特征的文本相关性特征;并计算所述新闻文本特征及视觉融合特征的相似度特征;
将所述新闻文本特征、OCR文本特征、图像的语义表示、文本相关性特征和相似度特征进行拼接,输入预先训练的分类器,获得目标新闻是否为假新闻的判别结果。
2.如权利要求1所述的一种基于相关性信息扩展的多模态虚假新闻识别方法,其特征在于,所述基于所述目标新闻的新闻文本进行特征提取,具体为:对目标新闻的新闻文本进行向量化处理,获得目标新闻文本的词向量矩阵;并基于所述词向量矩阵提取新闻文本特征。
3.如权利要求1所述的一种基于相关性信息扩展的多模态虚假新闻识别方法,其特征在于,所述提取所述目标新闻图像的语义表示以及颜色直方图向量,并将所述语义表示以及颜色直方图向量进行融合,获得视觉融合特征,具体为:使用预先训练的深度学模型提取图像的语义特征,同时,提取图像的颜色直方图向量;并基于预先训练的Bi‑LSTM模型对所述语义特征和颜色直方图向量进行特征融合。
4.如权利要求1所述的一种基于相关性信息扩展的多模态虚假新闻识别方法,其特征在于,所述提取目标新闻图像的OCR文本,并对目标新闻的OCR文本进行向量化表示,获得目标新闻OCR文本的词向量矩阵;并基于所述OCR文本的词向量矩阵,提取OCR文本特征;具体为:使用光学字符数别技术对图像提取OCR文本;去除OCR文本中的空格、回车及标点符号;
得到目标新闻的OCR文本的向量化表示;对OCR文本中的词语对应的词向量进行建模,得到OCR文本中每个词在当前上下文中的特征。
5.如权利要求1所述的一种基于相关性信息扩展的多模态虚假新闻识别方法,其特征在于,所述计算所述新闻文本特征和OCR文本特征的文本相关性特征,具体为:基于所述新闻文本特征和OCR文本特征,计算相似度矩阵,并将其作为注意力机制的权重;基于所述相似度矩阵,计算新闻文本每个词对OCR文本的相关程度;并计算OCR文本每个词对新闻文本的相关程度;进而获得文本相关性特征。
6.如权利要求1所述的一种基于相关性信息扩展的多模态虚假新闻识别方法,其特征在于,所述并计算所述新闻文本特征及视觉融合特征的相似度特征,具体为计算出视觉特征Vfeature与新闻文本特征ni之间的余弦相似度。
7.一种基于相关性信息扩展的多模态虚假新闻识别系统,其特征在于,包括:
数据获取单元,其用于获取目标新闻的新闻文本及图像;
视觉融合特征获取单元,其用于提取所述目标新闻图像的语义表示以及颜色直方图向量,并将所述语义表示以及颜色直方图向量进行融合,获得视觉融合特征;
新闻文本特征获取单元,其用于基于所述目标新闻的新闻文本进行特征提取,获得新闻文本特征;
OCR文本特征获取单元,其用于提取目标新闻图像的OCR文本,并对目标新闻的OCR文本进行向量化表示,获得目标新闻OCR文本的词向量矩阵;并基于所述OCR文本的词向量矩阵,提取OCR文本特征;
文本相关性及相似度特征获取单元,其用于计算所述新闻文本特征和OCR文本特征的文本相关性特征;并计算所述新闻文本特征及视觉融合特征的相似度特征;
分类识别单元,其用于将所述新闻文本特征、OCR文本特征、图像的语义表示、文本相关性特征和相似度特征进行拼接,输入预先训练的分类器,获得目标新闻是否为假新闻的识别结果。
8.一种计算机可读存储介质,其上存储有程序,其特征在于,该程序被处理器执行时实现如权利要求1‑6任一项所述的一种基于相关性信息扩展的多模态虚假新闻识别方法。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,其特征在于,所述处理器执行所述程序时实现如权利要求1‑6任一项所述的一种基于相关性信息扩展的多模态虚假新闻识别方法。
10.一种计算机程序,包括计算机程序,其特征在于,所述计算机程序当在一个或多个处理器上运行的时候用于实现如权利要求1‑6任一项所述的一种基于相关性信息扩展的多模态虚假新闻识别方法。