1.一种基于地域相关因子与稀疏表示的微博转发行为预测方法,其特征在于,包括以下步骤:步骤1:从数据中提取用户基本特征、微博基本特征;
步骤2:通过已提取的用户及微博基本特征计算用户活跃度、用户的亲密程度、基于主题地域相关因子的用户兴趣度;
步骤3:对步骤2的包括用户活跃度、用户的亲密程度、基于主题地域相关因子的用户兴趣度在内的多维数据特征进行特征筛选;
步骤4:筛选后的特征组通过稀疏表示分类算法进行转发预测,得到最终预测结果。
2.根据权利要求1所述的基于地域相关因子与稀疏表示的微博转发行为预测方法,其特征在于,所述步骤1从数据中提取用户基本特征、微博基本特征具体包括:步骤1.1:提取用户基本特征:用户昵称、用户所在地、用户姓名、用户粉丝数、用户关注数、用户微博数、用户创建时间;
步骤1.2:提取微博发布时间、微博具体内容、微博是否为转发、是否分享图片、是否含有链接、微博来源、微博转发数、微博评论数以及微博被赞数。
3.根据权利要求1所述的基于地域相关因子与稀疏表示的微博转发行为预测方法,其特征在于,所述步骤2用户的亲密程度为其中,rij表示用户i转发j的微博消息数,cij表示用户i评论j的微博消息数,aij表示i提及用户j的次数;
所述用户活跃度为
其中,PA为发表活跃度,RA为转发活跃度,n为用户在时间t内发表的微博数量,ri为用户第i天转发的微博数量,pi为用户第i天发送的数量。
4.根据权利要求1所述的基于地域相关因子与稀疏表示的微博转发行为预测方法,其特征在于,所述步骤2中用户兴趣度引入主题地域相关因子,融入主题地域相关因子的用户兴趣度表示为:
其中,I表示用户兴趣度,S表示兴趣相近度,T表示主题地域相关因子。
5.根据权利要求4所述的基于地域相关因子与稀疏表示的微博转发行为预测方法,其特征在于,所述主题地域相关因子计算公式为:其中,Zm表示微博m的主题词语集合,∩表示交集。R表示接收用户的所在地区;
所述兴趣相近度为
其中,I表示用户兴趣空间,J表示新微博特征空间。∪表示并集。
6.根据权利要求5所述的基于地域相关因子与稀疏表示的微博转发行为预测方法,其特征在于,所述主题地域相关因子采用隐含狄利克雷主题模型LDA,生成文档的主题词;
根据隐含狄利克雷分布主题模型的生成过程,词语wm,n的生成概率为:θm表示文档m的主题分布, 表示主
题k的词分布,t表示词语t,wm,n表示文档m的第n个词语,k表示主题k,zm,n表示为微博m的第n个单词的主题;
而LDA模型生成文档m及产生Nm个单词的生成概率为:α表示文档中隐含主题
间的强弱关系,β表示隐含主题的概率分布, 表示文档m中第n个单词的词分布,wm表示文档m的所有词语;
多篇微博文档形成语料集,似然计算如下:
以每个用户发布的微博内容为文本预料,先进行预处理,再训练微博主题模型找出核心词语。预处理流程为,先根据“结巴分词”对源内容进行分词,其次去除停用词和标点符号,接着英语单词词干化。设置参数α,β,K从而构建主题模型,K表示主题数量。
7.根据权利要求1所述的基于地域相关因子与稀疏表示的微博转发行为预测方法,其特征在于,所述步骤3是采用主成分分析方法对已有特征数据降维去噪。
8.根据权利要求4所述的基于地域相关因子与稀疏表示的微博转发行为预测方法,其特征在于,所述步骤4)筛选后的特征组通过稀疏表示分类算法进行转发预测,得到最终预测结果,具体包括:稀疏表示分类SRC是通过借助超完备字典,用尽可能少的信号来表示原有信号,其中许多数值约为零的系数被丢弃,并通过最小重构误差来分类;
min||x||0subject to Ax=y (11)其中,||x||0表示x中非零元素的个数,A为字典,y为待处理信号。显然我们希望x尽可能稀疏,即||x||0尽可能小。通过L0范数表示稀疏性,在计算实现上复杂,因此将L0范数转换为L1范数处理,如式(12);
min||x||1subject to Ax=y (12)因此,L1范数的求解可以转变为最优凸近似问题,可以通过L1正则近似得到,如式(13):式(13)是数理模型中的Lasso问题,可以看做是正则最小二乘问题;
SRC分类算法流程如下:
1)输入训练样本集 测试样本y∈Rm;
2)归一化矩阵A的列,为L2范式;
3)解决L1范式最小化问题:
min||x||1subject to||Ax-y||2≤ε,其中ε为重构误差值;
4)计算残差:
ri(y)=||yr-Aδi(x)||2=||yr-ε-Aδi(x)||2,i=1,2,其残差最小的i,则i为y的分类。