利索能及
我要发布
收藏
专利号: 2022114960222
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-08-30
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于原生‑衍生话题迁移学习的关键元素影响力发现方法,其特征在于,包括以下步骤:从社交平台提供的API接口中获取包含原生话题和衍生话题的信息以及相关用户信息;

构建衍生话题早期传播网络拓扑结构及传播时序,包括用联合分布自适应方法对原生话题和衍生话题内容空间进行跨领域特征适配,该过程的优化目标表示为:其中,X表示原生话题和衍生话题合并的数据;C表示样本类别的数量;Mc表示类与类之间的最大均值差异矩阵;λ表示正则项参数;I表示单位矩阵;W表示原生话题和衍生话题内容空间的共享特征;Θ为拉格朗日乘子,H是中心矩阵;

并考虑衍生话题早期数据稀疏,用对抗迁移学习方法对网络结构进行补偿,具体包括以下步骤:构建每个节点的结构特征向量,一个节点的结构特征向量由该节点的节点结构和节点影响力构成;

构建包括特征提取器Gf、标签分类器Gy和域判别器Gd的对抗迁移学习网络;

通过特征提取器从节点的结构特征向量中提取特征,标签分类器通过提取的特征进行分类,域判别器通过提取的特征来源于原生话题还是衍生话题;

在补偿过程中,特征提取器最小化标签分类器误差,并最大化域判别器的分类误差;

构建衍生话题的消息‑路径‑用户三元关联图,表示为:

为用户到路径的转移概率矩阵表示为:

为路径到用户的转移概率矩阵表示为:

为路径到用户的转移概率矩阵表示为:

为消息到路径的转移概率矩阵,表示为:

其中,U为用户集合,P为路径集合,M为消息集合;sim(mi,pj)表示第i条消息向量与第j条路径向量之间的相似度矩阵;N(mi)表示与第i条消息有转移关系的路径类型节点集合;

sim(pj,mi)表示第j条路径向量与第i个消息向量之间的相似度矩阵;N(pj)表示与第j条路径有转移关系的用户类型节点集合;sim(pj,uk)表示第j条路径向量与第i个用户向量之间的相似度矩阵;N(uk)表示与第k个用户有转移关系的路径类型节点集合;

并进行循环迭代打分,对衍生话题的关键元素影响力大小排序。

2.根据权利要求1所述的一种基于原生‑衍生话题迁移学习的关键元素影响力发现方法,其特征在于,原生话题和衍生话题的信息包括原生话题和衍生话题的话题内容、用户ID、用户转发及数目、用户评论内容及数目;相关用户信息包括用户基本属性和用户行为信息,用户基本属性包括用户兴趣爱好、用户擅长领域、用户标签信息、用户好友关系及数目,用户行为信息包括用户转发数、用户评论、用户好友转发数、用户历史发布内容。

3.根据权利要求1所述的一种基于原生‑衍生话题迁移学习的关键元素影响力发现方法,其特征在于,在用联合分布自适应方法对原生话题和衍生话题内容空间进行跨领域特征适配之前,对原生话题和衍生话题的信息进行预处理,具体包括:对原生话题和衍生话题的话题传播网络进行提取,即对所有用户发布的相关微博内容进行提取,分别获得原生话题、衍生话题用户发布话题的内容文本;

提取原生话题、衍生话题、原生和衍生话题重叠用户及衍生话题潜在用户一个月的历史发布内容进行提取,获取原生话题用户及潜在用户发布内容的文本内容、衍生话题用户及潜在用户发布内容的文本内容;

将每篇文本内容进行中文分词、词性标注,去除无用词性的词汇以及停用词,得到话题的候选关键词;

使用TF‑IDF算法计算每个候选关键词的权重,提取话题的中心关键词,消除噪点,得到原生话题和衍生话题的主要关键词序列;

使用Doc2vec算法对关键词序列进行学习,得到原生话题内容特征向量TS、衍生话题内容特征向量TD、原生话题用户及潜在用户内容特征向量US和衍生话题用户及潜在用户内容特征向量UD。

4.根据权利要求1所述的一种基于原生‑衍生话题迁移学习的关键元素影响力发现方法,其特征在于,当c=0时,类与类之间的最大均值差异矩阵M0表示为:其中,(M0)ij表示原生话题和衍生话题的最大均值差异矩阵M0第i行、第j列的;ns表示原生话题的样本个数;Ds表示原生话题;nt表示衍生话题的样本个数;Dt表示衍生话题;xi、xj分别表示原生话题和衍生话题合并的数据X中第i个数据、第j个数据。

5.根据权利要求1所述的一种基于原生‑衍生话题迁移学习的关键元素影响力发现方法,其特征在于,一个节点的结构特征向量由该节点的节点结构和节点影响力构成,一个节点的结构特征向量包括:获取节点的节点结构时,利用SDNE算法对网络结构进行表示学习,得到节点的全局结构特征和局部结构特征,节点的全局结构特征和局部结构特征作为节点的结构特征;

节点的影响力表示为:

Inf(wi)=γNum[foll(wi)]+Act(wi)

Active(wi)=Num[orig(wi)]+α*Num[retw(wi)]+β*Num[com(wi)]其中,γ表示权重系数;Active(wi)表示用户wi的活跃指数;Active(wmax)表示最活跃的用户wmax的活跃指数,Active(wmin)表示最不活跃的用户wmin的活跃指数;Num[orig(wi)]表示用户wi在衍生话题爆发前一个月内发表微博数量,Num[retw(wi)]和Num[com(wi)]表示用户wi在衍生话题爆发前一个月内被转发微博和被评论的数量;α、β为强化因子,且α∈[0,

1]、β∈[0,0.5]。

6.根据权利要求1所述的一种基于原生‑衍生话题迁移学习的关键元素影响力发现方法,其特征在于,进行循环迭代打分的过程包括正向迭代计算和反向迭代计算,具体包括:正向迭代计算公式如下:

反向迭代计算公式如下:

当‖X′‑X‖+‖Y′‑Y‖+‖Z′‑Z‖<ε时,迭代结束;在每次迭代后,需要对消息、路径、用户的分值向量X,Y,Z进行归一化处理;

其中,Y′表示当前迭代路径的分值;X表示前一次迭代消息的分值;μ表示阻尼系数;Y表示前一次迭代路径的分值;Z′表示当前迭代用户的分值;Z表示前一次迭代用户的分值;X′表示当前迭代消息的分值;ε表示阈值。