1.一种主题层次高影响力用户的获取方法,其特征在于,所述方法由计算机执行,包括以下步骤:S1、基于预训练的稀疏链接主题模型,获取待测社交网络中的所有用户的主题分布、所有主题下词分布和所有主题下链接分布;
S2、基于所述所有用户的主题分布、所述所有主题下词分布和所述所有主题下链接分布计算各用户在各主题下所占权重;
S3、基于所述用户在主题下所占权重,选取主题层次高影响力的用户;
其中,所述稀疏链接主题模型的预训练包括以下步骤:A1、基于社交网络中用户信息、用户文本信息以及用户链接信息,构建全局社交网络;
A2、确定全局社交网络中的主题数量K;
A3、基于所述主题数量K、用户信息、用户文本信息以及用户链接信息确定各个用户在K个主题中感兴趣的焦点主题;
A4、基于各个用户在K个主题中感兴趣的焦点主题的分布,获取用户文本信息与主题下链接分布的关系,完成所述稀疏链接主题模型的训练。
2.如权利要求1所述的主题层次高影响力用户的获取方法,其特征在于,所述A1具体包括:A101、获取社交网络中M个用户的文本信息,构成文本集合,将第m个用户对应的文本表示成Lm个词,记为 wmi表示第m个用户发表的第i个词,整个社交网络中所有文本信息记为
A102、获取社交网络中用户的链接关系,将第m个用户的链接关系表示成Nm条边,记为其中emj表示第j条边链接到的用户,整个社交网络中所有链接信息记为
A103、构建包含用户文本信息w与链接信息e的全局社交网络G=(u,w,e),其中u=(u1,u2,…,um,…,uM),表示全局社交网络中M个用户。
3.如权利要求2所述的主题层次高影响力用户的获取方法,其特征在于,所述A3具体包括:A301、对于全局社交网络中的K个主题,按照公式(1)分别抽取主题下的词分布 与链接分布 式(1)中, 服从狄利克雷分布,表示全局社交网络中主题k的词分布; 服从狄利克雷分布,表示主题k下的链接分布;全局社交网络中所有主题下的词分布记为 全局社交网络中所有主题的链接分布记为向量
其中:
φkv表示词v在主题k下所有词中所占权重;
V是文本w中所有不重复词的总数,即向量 的维度;
表示用户e在主题k下所占权重,用来衡量主题k层次下用户e影响力的大小;
E表示全局社交网络中被链接到的不重复用户总数,即 的维度;
β与β1是分布的超参数;
A302、对于全局社交网络中用户,按照公式(2)生成用户在K个主题中感兴趣的焦点主题,确定先验分布的参数 生成主题分布其中:
bm,k是二元指示变量,服从伯努利分布,表示主题k是否为焦点主题,其中:
表示第m个用户的主题关注情况,记b=(b1,b2,…,bM);
期望E(bm,k)=πm,πm服从参数为ε0,ε1的Beta分布,πm与 构成Beta-Multinomial共轭;
表示用户m的主题分布,服从参数为 的狄利克雷分布;
θmk表示用户m在主题k上的兴趣权重,所有用户的主题分布记为向量α0与α1为分布的超参数,α0≤α1,是与 维度相同且每个维度均为1的向量。
4.如权利要求3所述的主题层次高影响力用户的获取方法,其特征在于,所述A4具体包括:基于各个用户在K个主题中感兴趣的焦点主题的分布,利用公式(4)获取用户文本信息与主题下链接分布的关系;
其中:
zmi服从多项式分布,表示第m个用户的第i个词的主题编号;
表示主题编号为zmi的词分布;
对应的主题编号为 与 构成Dirichlet-Multinomial共轭;
fmj服从多项式分布,表示第m个用户的第j条边的主题编号;
表示主题编号为fmj的链接分布;
对应的主题编号为 与 构成Dirichlet-Multinomial共轭;
全局社交网络中所有词的主题编号记为向量 所有边的主题编号记为向量
5.如权利要求4所述的主题层次高影响力用户的获取方法,其特征在于,所述S1具体包括:将待测社交网络输入到预训练的稀疏链接主题模型中,基于坍塌式变分贝叶斯推断算法获取待测社交网络中的所述所有用户的主题分布、所述所有主题下词分布和所述所有主题下链接分布,具体包括:S101、基于贝叶斯法则与共轭先验,得到w,e,z,f,b的联合概率分布,如式(5):其中:
Θ=(ε0,ε1α0,α1,β0,β1);
表示属于主题k的词中的词v数量的期望;
表示属于主题k的边中链接到用户e的边数的期望;
表示用户m发表的文本中属于主题k的总词数的期望;
表示用户m的边中属于主题k的边数的期望;
Am={k:bm,k=1,k∈{1,2,…,K}}表示第个m用户所感兴趣的主题集合;
|Am|表示集合中元素个数,即K个主题中是该用户焦点主题的个数;
Bm={k:bm,k=0,k∈{1,2,…,K}},|Bm|表示不是该用户焦点主题的个数;
Δ运算符定义为:对于K维向量x, Γ(x)为伽马函数;
S1011、在坍塌式变分贝叶斯推断算法的框架下,对潜变量z与b,f的联合概率分进行分解,如公式(6):其中:
为多项式分布;
为伯努利分布;
为变分参数,
S1012、利用贝叶斯法则与狄利克雷-多项式共轭将主题词分布与边分布进行边缘积分,推导出 与 如式(7)(8):其中:
表示去除用户m链接关系中的第j条边后,属于主题k的总链接数的期望;
表示去除用户m发表的文本中的第i个词后,属于主题k的总词数的期望;
S1013、利用高斯近似,推导出变分参数 如公式(9):其中:
其中:
k′表示不包括主题k;
-mk表示不包含bm,k;
i′表示不包括词i;
j′表示不包含链接到j的边;
S1014、定义变分自由能 如公式(12):其中:
表示分布的期望;
S102、将步骤S101中变分参数 随机初始化;
S103、根据待测社交网络,对第m个用户利用公式(4)更新 与|Am|,完成所有用户所有主题的更新;
S104、根据用户发表的词w与链接关系e利用公式(7)(8)更新 与S105、重复步骤S103与S104迭代至式(5)所示变分自由能收敛。
6.如权利要求5所述的主题层次高影响力用户的获取方法,其特征在于,所述S2具体包括:根据步骤S1迭代的结果对φkw、 进行估计,如公式(13)(14):其中:
表示属于主题k的词中词v数量的期望,表示属于主题k的边中链接到用户e的边数的期望,表示词v在主题k下所占权重;
表示用户e在主题k下所占权重;
β与β1是分布的超参数。
7.如权利要求6所述的主题层次高影响力用户的获取方法,其特征在于,所述S3具体包括:对于主题k(k∈{1,2,…,K}),根据φkv解释主题k实际含义,根据主题k下任意用户e占所有用户的权重 从主题k层次所有用户中选取权重为前N名的用户作为主题k层次高影响力用户,N值可预先设定。
8.一种主题层次高影响力用户的获取系统,其特征在于,所述系统包括计算机,所述计算机包括:至少一个存储单元;
至少一个处理单元;
其中,所述至少一个存储单元中存储有至少一条指令,所述至少一条指令由所述至少一个处理单元加载并执行以实现以下步骤:S1、基于预训练的稀疏链接主题模型,获取待测社交网络中的所有用户的主题分布、所有主题下词分布和所有主题下链接分布;
S2、基于所述所有用户的主题分布、所述所有主题下词分布和所述所有主题下链接分布计算各用户在各主题下所占权重;
S3、基于所述用户在主题下所占权重,选取主题层次高影响力的用户;
其中,所述稀疏链接主题模型的预训练包括以下步骤:A1、基于社交网络中用户信息、用户文本信息以及用户链接信息,构建全局社交网络;
A2、确定全局社交网络中的主题数量K;
A3、基于所述主题数量K、用户信息、用户文本信息以及用户链接信息确定各个用户在K个主题中感兴趣的焦点主题;
A4、基于各个用户在K个主题中感兴趣的焦点主题的分布,获取用户文本信息与主题下链接分布的关系,完成所述稀疏链接主题模型的训练。