利索能及
我要发布
收藏
专利号: 2019113405314
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于多特征的微博用户属性分析方法,其特征在于,该方法具体包括以下步骤:S1:利用爬虫软件爬取用户微博博文信息并清洗、打标;

S2:通过word2vec模型构造微博博文信息的词向量,在此基础上根据集成学习的组合策略,得出用户微博文本特征;

S3:从用户微博数据中构造出用于微博属性分析的多特征体系,并通过基础特征构造出符合用户属性分析的复合特征;

所述多特征体系包括文本特征、时间特征、统计特征、数值特征和内容特征;其中,文本特征是基于用户博文的分析结果;时间特征包括各时间段的微博数、用户活跃度和一周七天中各天的微博数目;数值特征包括转发最大数、转发最小数、转发平均值、转发中位数、评论最大数、评论最小数、评论均值、评论中位数、微博评论率、微博平均字数和微博最小字数;统计特征包括微博数、关注数、粉丝数、互关数、评论数和转发数;内容特征包括微博长度、是否有照片、是否有URL、用户名长度、注册所在地、生日、个人简介、受教育信息、昵称和头像;

S4:采用Stacking模型融合技术将多个基分类器进行融合,构造微博用户属性分析模型,输入待检测用户微博数据的复合特征,得到最终的微博用户属性分析结果。

2.根据权利要求1所述的基于多特征的微博用户属性分析方法,其特征在于,所述步骤S2中,用户微博文本特征的构造具体包括以下步骤:S21:通过利用Jieba分词工具对样本进行分词处理,去停用词,将每个用户的微博进行合并,得到集合 mi表示用户ID为i的微博集合,表示用户ID为i的第n条微博中词的集合, wt表示单条微博

中的第t个词;

S22:通过Skip‑Gram模型训练微博用户微博,得到微博中300维的词向量,并计算出每个用户的微博向量,计算公式如下:其中,ui表示ID为i的用户,K表示用户ui的微博词数,Wveck表示第k个单词的词向量;

S23:通过Stacking模型作为集成学习的组合策略,以支持向量机、决策树、逻辑回归、光梯度提升机和极端梯度提升作为初级分类器,其预测结果由作为二层分类器的逻辑回归组合得到,最后得到用户微博文本特征。

3.根据权利要求1所述的基于多特征的微博用户属性分析方法,其特征在于,所述步骤S3中,构造的复合特征包括:用户活跃度、用户微博时间分布和用户行为习惯;

所述用户活跃度特征fuseractive(ui)的计算公式如下:

其中,ui表示ID为i的用户,fsum(ui)表示用户ui的微博总数,ftranspond(ui)表示用户ui的微博转发数量,ftime(ui)表示用户ui所发布的第一条微博和最后一条微博的时间间隔;

所述用户微博时间分布 的计算公式如下:

其中, 表示位于时间段j的ID为i的用户, 表示用户ui在时刻j所发布微博数, 表示用户ui在时刻j所转发微博数;

所述用户行为习惯fuserBehavior(ui)的计算公式如下:

fuserBehavior(ui)=ftextBehavior(ui)+ftextSource(ui)+finforIntegrity(ui)其中,ftextBehavior(ui)表示用户ui的文本行为习惯,ftextSource(ui)表示用户ui的博文源信息,finforIntegrity(ui)表示用户ui的基本信息完整度。

4.根据权利要求3所述的基于多特征的微博用户属性分析方法,其特征在于,用户的文本行为习惯是根据用户微博中表情符号和图片的比例计算得到,具体计算公式如下:其中,femoticons(textn)表示第n条微博中表情符号数,fpicture(textn)表示第n条微博中图片数,N表示用户ui的微博数。

5.根据权利要求3所述的基于多特征的微博用户属性分析方法,其特征在于,用户博文源信息是根据男性惯用文本源fmSource(ui)和女性惯用文本源ffSource(ui)计算得到,具体计算公式为:ftextSource(ui)=fmSource(ui)‑ffSource(ui)。

6.根据权利要求5所述的基于多特征的微博用户属性分析方法,其特征在于,所述的男性惯用文本源fmSource(ui)的计算公式如下:其中,N表示用户ui的微博数,fmSourceNum(textj)表示第n条微博来源是男性文本源,sourceNum表示文本源总数。

7.根据权利要求5所述的基于多特征的微博用户属性分析方法,其特征在于,所述的女性惯用文本源的计算公式如下:其中,N表示用户ui的微博数,ffSourceNum(textj)表示第n条微博来源是女性文本源,sourceNum表示文本源总数。

8.根据权利要求3所述的基于多特征的微博用户属性分析方法,其特征在于,用户信息完整度具体包括:finforIntegrity表示用户的基本信息完整度,基本信息包括用户昵称、注册所在地、性别、生日、简介、教育信息和头像信息,计算公式如下:其中,fname表示是否有昵称,flocation表示是否有注册所在地,fbirthday表示是否有生日信息,fintroduction表示是否有个人简介,feducation表示是否有受教育信息,fheadPhoto表示是否有头像信息,m表示基本信息的总数。

9.根据权利要求1所述的基于多特征的微博用户属性分析方法,其特征在于,所述步骤S4中,采用Stacking模型融合技术将多个基分类器进行融合构建微博用户属性分析模型的具体包括:使用支持向量机、决策树、逻辑回归、光梯度提升机和极端梯度提升作为初级分类器,逻辑回归作为二层分类器构建微博用户属性分析模型。