利索能及
我要发布
收藏
专利号: 2018100318597
申请人: 平安科技(深圳)有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种话题演变的可视化展现方法,应用于应用服务器,其特征在于,所述方法包括:提取涉及同一事件的多个文本资料的主题,并通过分层狄利克雷过程确定每一所述主题之间的关联关系,以建立一主题流,所述分层狄利克雷过程包括计算从时刻t‑1到时刻t,簇r中来自簇s的比例,及从时刻t‑1到时刻t,簇s中流向簇r的比例,以确定每一所述主题之间的关联关系,将t时刻到来的第i个资料记为 其所在的簇记为 所述簇r中来所述自簇s的比例通过以下公式计算得到:式中, 表示所述簇r中来所述自簇s的比例,I()为满足括号内条件的数量,从公式整体含义来讲,分母是t‑1到t时刻簇r中所有资料的数量总和,分子是t‑1到t时刻簇r中来自簇s的资料数量总和;

所述簇s中流向所述簇r的比例通过以下公式计算得到:

式中, 表示所述簇s中流向所述簇r的比例,I()为满足括号内条件的数量,从公式整体含义来讲,分母是t‑1到t时刻簇s所有资料的数量总和,分子是t‑1到t时刻主题由簇s变为簇r的资料数量总和;

从多个所述主题中筛选出包含重要事件的多个第一主题;

提取每一所述第一主题的关键字,并确定每一所述第一主题的关键字的关联关系;及将每一所述第一主题的关键字及其关联关系添加至所述主题流,以生成与所述多个文本资料对应的话题演变脉络图。

2.如权利要求1所述的可视化展现方法,其特征在于,所述可视化展现方法还包括:对所述多个文本资料进行预处理,所述预处理包括:对所述文本资料进行切分、繁简转化、替换歧义词、去除停用词、低频词、数字及标点符号。

3.如权利要求1所述的可视化展现方法,其特征在于,所述建立所述主题流的步骤之后还包括:识别每一所述主题的产生、分裂、合并、结束在所述主题流中的节点位置;及对每一所述主题的产生、分裂、合并、结束的节点位置运用不同的标记符号进行标示。

4.根据权利要求1所述的可视化展现方法,其特征在于,所述从多个所述主题中筛选出包含重要事件的多个第一主题的步骤包括:利用信息熵算法来计算每一所述主题的分值;及

根据计算得到的分值大小来从多个所述主题中筛选出包含重要事件的多个所述第一主题;

其中,所述信息熵算法的计算公式为:

R(r,t)是簇r在时间t的排序分值,Nr是流入簇r的元素数量。

5.根据权利要求1所述的可视化展现方法,其特征在于,所述提取每一所述第一主题的关键字,并确定每一所述第一主题的关键字的关联关系的步骤包括:利用TF‑IDF算法提取每一所述第一主题的关键字;及

通过分层狄利克雷过程确定每一所述第一主题的关键字的关联关系。

6.一种应用服务器,其特征在于,所述应用服务器包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的话题演变的可视化展现系统,所述话题演变的可视化展现系统被所述处理器执行时实现如下步骤:提取涉及同一事件的多个文本资料的主题,并通过分层狄利克雷过程确定每一所述主题之间的关联关系,以建立一主题流,所述分层狄利克雷过程包括计算从时刻t‑1到时刻t,簇r中来自簇s的比例,及从时刻t‑1到时刻t,簇s中流向簇r的比例,以确定每一所述主题之间的关联关系,将t时刻到来的第i个资料记为 其所在的簇记为 所述簇r中来所述自簇s的比例通过以下公式计算得到:式中, 表示所述簇r中来所述自簇s的比例,I()为满足括号内条件的数量,从公式整体含义来讲,分母是t‑1到t时刻簇r中所有资料的数量总和,分子是t‑1到t时刻簇r中来自簇s的资料数量总和;

所述簇s中流向所述簇r的比例通过以下公式计算得到:

式中, 表示所述簇s中流向所述簇r的比例,I()为满足括号内条件的数量,从公式整体含义来讲,分母是t‑1到t时刻簇s所有资料的数量总和,分子是t‑1到t时刻主题由簇s变为簇r的资料数量总和;

从多个所述主题中筛选出包含重要事件的多个第一主题;

提取每一所述第一主题的关键字,并确定每一所述第一主题的关键字的关联关系;及将每一所述第一主题的关键字及其关联关系添加至所述主题流,以生成与所述多个文本资料对应的话题演变脉络图。

7.如权利要求6所述的应用服务器,其特征在于,所述建立所述主题流的步骤之后还包括:识别每一所述主题的产生、分裂、合并、结束在所述主题流中的节点位置;及对每一所述主题的产生、分裂、合并、结束的节点位置运用不同的标记符号进行标示。

8.如权利要求6所述的应用服务器,其特征在于,所述从多个所述主题中筛选出包含重要事件的多个第一主题的步骤包括:利用信息熵算法来计算每一所述主题的分值;及

根据计算得到的分值大小来从多个所述主题中筛选出包含重要事件的多个所述第一主题;

其中,所述信息熵算法的计算公式为:

R(r,t)是簇r在时间t的排序分值,Nr是流入簇r的元素数量。

9.一种计算机可读存储介质,所述计算机可读存储介质存储有话题演变的可视化展现系统,所述话题演变的可视化展现系统可被至少一个处理器执行,以使所述至少一个处理器执行如权利要求1‑5中任一项所述的话题演变的可视化展现方法的步骤。