利索能及
我要发布
收藏
专利号: 2022100736626
申请人: 哈尔滨理工大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于文本特征整合的语义社交网络多视角社区发现方法,其特征在于,包括以下步骤:

步骤S1,抓取社交网络中用户发表语义信息,并对所述语义信息进行预处理,得到初始语义信息;

步骤S2,对所述初始语义信息进行词频特征提取,选取预设数量的词频特征,以构建词频向量矩阵;

步骤S3,对所述初始语义信息进行TF‑IDF值计算,提取预设数量的关键字特征,以构建关键字向量矩阵;

步骤S4,利用LDA主题模型获取所述初始语义信息的主题和每位用户的主题分布,以构建主题向量矩阵;

步骤S5,将所述词频向量矩阵、所述关键字向量矩阵和所述主题向量矩阵堆叠形成数据矩阵,利用Pearson相关系数求解数据矩阵中所述词频向量矩阵、所述关键字向量矩阵和所述主题向量矩阵之间的相似度矩阵,并与预设阈值进行比较,若大于则建立连接重构原社交网络,得到语义社交网络,反之则不连接;以及步骤S6,利用基于图学习的多视角聚类算法对所述语义社交网络进行多视角社区发现,得到社区划分结果。

2.根据权利要求1所述的基于文本特征整合的语义社交网络多视角社区发现方法,其特征在于,所述步骤S1中利用正则表达式和去停词表清洗所述语义信息中的无效信息,得到所述初始语义信息。

3.根据权利要求1所述的基于文本特征整合的语义社交网络多视角社区发现方法,其特征在于,所述步骤S2具体包括:步骤S201,将所述初始语义信息作为一个整体语料库D′进行词频统计,计算每个词的词频数;

步骤S202,将每个词的词频数降次排序,根据预设需求选取词频数,构成所述词频向量矩阵及其特征数量,并依次统计所述词频向量矩阵在每条语义信息中出现的次数。

4.根据权利要求1所述的基于文本特征整合的语义社交网络多视角社区发现方法,其特征在于,所述TF‑IDF值求解公式为:j

其中,fi,j为词频向量矩阵在每条语义信息中出现的次数,|w|为文件dj中不同单词的个数,|D|为语料库中文本数量的总数,即社交网络中用户发表的语义信息的总数,|{j:wi∈dj}|为包含词wi的文件数目。

5.根据权利要求1所述的基于文本特征整合的语义社交网络多视角社区发现方法,其特征在于,所述步骤S3具体包括:步骤S301,对所述初始语义信息进行过滤、分词和词性筛选;

步骤S302,将处理后的初始语义信息作为文档d',使用TF‑IDF值求解公式和预设语料库得到所述文档d'中每个词组的TF‑IDF值,将前t个TF‑IDF值所对应的词组作为关键字kw,其中,t为正整数;

步骤S303,将文档d'的所有语义信息作为语料库D',某个用户发表的信息作为文档dj,再次TF‑IDF值求解公式计算关键字kwj在所述文档dj中的TF‑IDF值,以构建所述关键字向量矩阵。

6.根据权利要求1所述的基于文本特征整合的语义社交网络多视角社区发现方法,其特征在于,所述步骤S4具体包括:步骤S401,对所述初始语义信息进行清洗和过滤;

步骤S402,确定需要生成的主题个数,利用LDA生成文档对处理后的初始语义信息进行主题抽取,得到每条信息的主题分布;

步骤S403,将所述主题作为所述主题向量矩阵的行,和所述用户发表的信息作为所述主题向量矩阵的列,信息的主题分布作为数据矩阵的值,以构建所述主题向量矩阵。

7.根据权利要求6所述的基于文本特征整合的语义社交网络多视角社区发现方法,其特征在于,所述LDA生成文档的具体过程为:设所述初始语义信息的先验分布是Dirichlet分布,即对任意用户发表的文本信息dj∈D,得到文本的主题分布θd=Dirichlet(α),α为超参数向量,决定文档中主题的分布比例;

设所述主题的先验分布是Dirichlet分布,即对任意主题t∈T,得到词分布βt=Dirichlet(η),η为超参数向量,决定主题中词的分布比例;

对任意语义信息dj中的第n个词,从主题分布θd中得到其主题编号 从所述主题编号 得知词 的概率分布

8.根据权利要求1所述的基于文本特征整合的语义社交网络多视角社区发现方法,其特征在于,所述步骤S5中Pearson相关系数的求解过程为:其中,ri,j为每个视角的相似度矩阵,xi和xj分别为词频向量矩阵或关键字向量矩阵或主题向量矩阵的第i列和第j列,N为词频向量矩阵或关键字向量矩阵或主题向量矩阵的总列数。

9.根据权利要求1所述的基于文本特征整合的语义社交网络多视角社区发现方法,其特征在于,所述步骤S6具体包括:步骤S601,基于图学习的多视图聚类算法对所述语义社交网络进行多视角社区发现,通过自适应每一个视角的权重,学习得到多个视角融合后的最终矩阵;

步骤S602,利用秩约束rank(Ls)=n‑c使所述最终矩阵的连通分量数正好为社区结构数。

10.根据权利要求9所述的基于文本特征整合的语义社交网络多视角社区发现方法,其特征在于,所述步骤S602的目标函数为:其中, 为第v个视角的相似度矩阵的第j列, 为 的权重,n为相似度矩阵的行或列数,sj为最终矩阵S的第j列,V为视角个数,γ为权衡参数,P={p1,p2,…,pc}为聚类指示矩阵,Ls为最终矩阵S的Laplacian矩阵,c为社区结构数,I为全为1的向量。