利索能及
我要发布
收藏
专利号: 2019111972122
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-05-14
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于地域与情感特征的微博谣言集成识别方法,其特征在于,包括以下步骤:(A)计算机对采集到的互联网微博数据进行清洗、打标;

(B)对已经完成打标操作的数据进行特征工程操作,在常用特征的基础上构造出地域相关性、情感一致性和用户可信度三个新特征,使用卡方检验对所有特征的有效性进行验证并进行有效性排序,通过特征工程进行特征筛选;

(C)采用堆叠方法作为集成学习的组合策略,构造谣言识别模型;

(D)输入待检测数据,得到每条信息为谣言的可能性大小;

所述用户可信度特征的具体构造步骤包括:

根据用户是否认证fverified、基本信息是否完整fInfoIntegrity以及用户影响力finfluence(ui)计算得到用户可信度,其计算公式如下:fcredibility(ui)=fverified+finfluence+fInfoIntegrity;

fverified表示用户是否认证,取值为0或1;fInfoIntegrity表示用户的基本信息是否完整,基本信息包括用户昵称、用户注册地、个人描述、性别和头像信息,取值为0或1;finfluence表示用户影响力;

所述步骤(B)的情感一致性特征的具体构造步骤包括:分别对每条微博内容及其相关评论进行分词处理,去停用词,得到微博内容的词向量集合 mi表示第i条微博的词向量集合, 表示该微博所分得的词语;

相对应的微博下每条评论的词向量集合 表示第i条微博下的第j条评论的词向量集合, 表示该条评论所分得的词语;

分别将微博内容的词向量集合mi和相对应的微博下每条评论的词向量集合 与大连理工大学的情感词汇本体库中的情感词进行词语匹配以得到每条信息中积极情感词与消极情感词的个数,得到该条消息或评论的情感倾向公式如下:S=Cpos‑Cneg

S表示当前词集合的情感倾向,Cpos表示积极情感词数,Cneg表示消极情感词数,由此可得:SO表示该词向量集合最终的情感倾向,1表示积极情感倾向,‑1表示消极情感倾向,0表示中立;计算微博mi下每条评论的情感倾向 后利用如下公式计算评论的总体倾向:最后,对比微博及其对应的评论的情感倾向,得到情感一致性特征;

所述地域相关性特征的具体构造步骤包括:

采用欧氏距离计算全国各地级市之间的距离,得到距离矩阵,欧氏距离计算公式如下:dist(x,y)表示城市x与城市y之间的距离,而城市x的坐标为(x1,x2),城市y的坐标为(y1,y2);

针对用户注册地域与所发布的微博内容中地域的不同,设置距离阈值。

2.根据权利要求1所述的一种基于地域与情感特征的微博谣言集成识别方法,其特征在于,所述用户影响力的计算步骤包括:根据用户的粉丝数、互相关注数计算得到用户影响力finfluence(ui),公式如下:其中,ui表示发布微博i的用户,Cbifolowers表示用户ui的互相关注数,Cfollowers表示用户ui的粉丝数。

3.根据权利要求2所述的一种基于地域与情感特征的微博谣言集成识别方法,其特征在于,针对用户注册地域与所发布的微博内容中地域的不同,距离阈值的设置步骤之后还包括:用户注册地与博文提及地都属于中国,距离按需计算;

用户注册地属于中国,博文提及地不属于中国,距离设置为10000;

用户注册地不属于中国,博文提及地属于中国,距离设置为10000;

用户注册地与博文提及地均不属于中国,距离设置为10000。

4.根据权利要求3所述的一种基于地域与情感特征的微博谣言集成识别方法,其特征在于,所述步骤(C)中,采用的Stacking方法集成学习的组合策略构建谣言识别模型的具体步骤包括:采用支持向量机、朴素贝叶斯和随机森林作为基分类器;

然后采用逻辑回归算法作为第二层分类器构造谣言识别模型。

5.一种基于地域与情感特征的微博谣言集成识别装置,其特征在于,包括:预处理装置:用于计算机对采集到的互联网微博数据进行清洗、打标;

特征筛选模块:用于对已经完成打标操作的数据进行特征工程操作,在常用特征的基础上构造出地域相关性、情感一致性和用户可信度三个新特征,使用卡方检验对所有特征的有效性进行验证并进行有效性排序,通过特征工程进行特征筛选;

谣言识别模型构造模块:用于采用Stacking方法作为集成学习的组合策略,构造谣言识别模型;

判断模块:用于输入待检测数据,得到每条信息为谣言的可能性大小;

所述用户可信度特征的具体构造步骤包括:

根据用户是否认证fverified、基本信息是否完整fInfoIntegrity以及用户影响力finfluence(ui)计算得到用户可信度,其计算公式如下:fcredibility(ui)=fverified+finfluence+fInfoIntegrity;

fverified表示用户是否认证,取值为0或1;fInfoIntegrity表示用户的基本信息是否完整,基本信息包括用户昵称、用户注册地、个人描述、性别和头像信息,取值为0或1;finfluence表示用户影响力;

所述情感一致性特征的具体构造步骤包括:

分别对每条微博内容及其相关评论进行分词处理,去停用词,得到微博内容的词向量集合 mi表示第i条微博的词向量集合, 表示该微博所分得的词语;

相对应的微博下每条评论的词向量集合 表示第i条微博下的第j条评论的词向量集合, 表示该条评论所分得的词语;

分别将微博内容的词向量集合mi和相对应的微博下每条评论的词向量集合 与大连理工大学的情感词汇本体库中的情感词进行词语匹配以得到每条信息中积极情感词与消极情感词的个数,得到该条消息或评论的情感倾向公式如下:S=Cpos‑Cneg

S表示当前词集合的情感倾向,Cpos表示积极情感词数,Cneg表示消极情感词数,由此可得:SO表示该词向量集合最终的情感倾向,1表示积极情感倾向,‑1表示消极情感倾向,0表示中立;计算微博mi下每条评论的情感倾向 后利用如下公式计算评论的总体倾向:最后,对比微博及其对应的评论的情感倾向,得到情感一致性特征;

所述地域相关性特征的具体构造步骤包括:

采用欧氏距离计算全国各地级市之间的距离,得到距离矩阵,欧氏距离计算公式如下:dist(x,y)表示城市x与城市y之间的距离,而城市x的坐标为(x1,x2),城市y的坐标为(y1,y2);

针对用户注册地域与所发布的微博内容中地域的不同,设置距离阈值。

6.根据权利要求5所述的基于地域与情感特征的微博谣言集成识别装置,其特征在于,所述采用Stacking方法作为集成学习的组合策略,构造谣言识别模型,具体包括:步骤S31,采用Stacking方法作为集成学习的组合策略构建谣言识别模型,使用支持向量机、随机森林和朴素贝叶斯作为Stacking模型的初级分类器,逻辑回归模型作为元分类器;

步骤S32,将训练集按照五折交叉验证的方式分别输入到模型中,经过三个初级分类器后,训练得到三个初级分类模型,所得到的结果作为训练集新的特征输入到元分类器中,进行下一轮的训练;

步骤S33,将验证集按步骤S32的方法同样进行输入,检验步骤S32中所训练出的模型效果;

步骤S34,将测试集输入到步骤S33中所验证过的模型,得到预测结果,对预测结果进行加权平均后得到新的测试集,将初级分类器中得到的新的训练集输入到元分类器中,训练得到最终的模型并测试模型的分类效果。