利索能及
我要发布
收藏
专利号: 2017107371858
申请人: 合肥工业大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-10-14
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种网络化数据流的标签提取方法,其特征是按如下步骤进行:

步骤1、根据社交网络中用户节点之间存在的关注关系,构建数据流形式的网络数据块集合D,并获得网络数据块集合D中每个用户节点的邻居列表;

步骤2、更新每一个网络数据块中每个用户节点的邻居列表;

步骤3、根据第α个网络数据块Dα中每个用户节点的微博内容,利用主题模型法抽取出每个用户节点的多个候选标签,从而构成每个用户节点相应的候选标签列表;所述每个用户节点的候选标签列表包括若干个主题标签及其相应得分;

步骤4、根据第α个网络数据块Dα中第i个用户节点及其邻居列表的候选标签列表,得到第i个用户节点的标签集。

2.根据权利要求1所述的网络化数据流的标签提取方法,其特征在于:所述步骤一是按如下步骤进行:步骤1.1、在社交网络中,将满足连通图关系的用户节点及其微博内容划分为一个网络数据块,记为第1个网络数据块D1;所述第1个网络数据块D1中包含的用户节点数目记为m1,且m1≤M,M是网络数据块的最大用户数量;

步骤1.2、定义网络数据块的总数为K、任意一个网络数据块为第α个网络数据块,初始化α=1;

步骤1.3、定义每个网络数据块用户节点的计数变量为j,初始化j=1;

步骤1.4、将所述第α个网络数据块Dα中所有用户节点所关注的除mα个用户节点以外的其他用户节点放入用户列表集List中,从所述用户列表集List中任意选择一个用户节点及其微博内容放入第α+1个网络数据块Dα+1中;

步骤1.5、将j+1赋值给j,判断j>M是否成立或者从所述用户列表集List中不存在任何用户节点能与所述第α+1个网络数据块Dα+1中用户节点所形成的网络结构构成连通图是否成立,若任一个条件成立,则表示形成了第α+1个网络数据块Dα+1,且第α+1个网络数据块Dα+1中的用户节点数目mα+1不超过M;否则,从所述用户列表集List中选择与所述第α+1个网络数据块Dα+1中用户节点所形成的网络结构能构成连通图的用户节点及其微博内容放入第α+1个网络数据块Dα+1中,并返回步骤1.5执行;

步骤1.6、根据所述第α+1个网络数据块Dα+1中所有用户节点以及前α个网络数据块Dα中所有用户节点的网络结构,得到所述第α+1个网络数据块Dα+1中每个用户节点的邻居列表;

步骤1.7、将α+1赋值给α,并判断α>K是否成立,若成立,则表示获得了数据流形式的网络数据块集合D={D1,D2,....,Dα,...,DK};否则,返回步骤1.3执行。

3.根据权利要求1所述的网络化数据流的标签提取方法,其特征在于:所述步骤二是按如下步骤进行:步骤2.1、定义变量i;初始化α=1;

步骤2.2、初始化i=1;

步骤2.3、根据所述第α个网络数据块Dα中第i个用户节点所关注的用户节点中,是否与mα个用户节点存在交集;若存在,则将存在交集的用户节点与第i个用户节点相连接,从而更新第i个用户节点的邻居列表;若不存在,则保持第i个用户节点的邻居列表不变;

步骤2.4、将i+1赋值给i,并判断i>mα是否成立,若成立,则表示完成第α个网络数据块Dα中所有用户节点的邻居列表更新;否则,返回步骤2.3执行;

步骤2.5、将α+1赋值给α,并判断α>K是否成立,若成立,则表示完成所有网络数据块中所有用户节点的邻居列表更新;否则,返回步骤2.2执行。

4.根据权利要求1所述的网络化数据流的标签提取方法,其特征在于:所述步骤四是按如下步骤进行:步骤4.1、根据第i个用户节点的邻居列表中每个邻居节点的主题标签的相应得分,将低于平均分的相应主题标签删除,从而更新第i个用户节点的邻居列表中每个邻居的候选标签列表;

步骤4.2、定义第i个用户节点的邻居总数为Qi、任意一个邻居为第i个用户节点的第k个邻居用户,k=1,2,…,Qi,并初始化k=1;

步骤4.3、计算所述第i个用户节点与其第k个邻居用户的候选标签列表之间的相似度,对于第i个用户节点的任一个候选标签,判断是否能从所述第i个用户节点的第k个邻居的候选标签列表中找到能满足相似度阈值且相似度最大的主题标签,若能找到,则将第i个用户节点相应的主题标签,与所找到的第k个邻居节点的主题标签组成成对主题标签,并将所述成对主题标签及其相似度一起加入第i个用户节点的第k个邻居用户的待选重叠标签集中;否则,执行步骤4.6;

步骤4.4、判断第i个用户节点的第k个邻居用户的待选重叠标签集中,是否存在相同的第i个用户节点的第k个邻居用户的主题标签,若存在,则将所有相同的第i个用户节点的第k个邻居用户的主题标签中相似度最大的主题标签所对应的成对主题标签及其相似度一起添加到第i个用户节点的第k个邻居用户的重叠标签集中,否则,直接将不相同的第i个用户节点的第k个邻居用户的主题标签所对应的成对主题标签及其相似度一起添加到第i个用户节点的第k个邻居用户的重叠标签集中;

步骤4.5、将所述重叠标签集中第i个用户节点的第k个邻居用户的每个主题标签的得分乘以自身的相似度值,再与第i个用户节点的主题标签的得分相加,从而得到第i个用户节点的每个主题标签的得分调整值,并更新到第i个用户节点的候选标签列表中;

步骤4.6、将k+1赋值给k,判定k>Qi是否成立,若成立,根据更新后的第i个用户节点的候选标签列表,选取前Top个得分最高的主题标签作为第i个用户节点的标签集,否则返回执行步骤4.3。