利索能及
我要发布
收藏
专利号: 2019109897481
申请人: 平安科技(深圳)有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种舆情分析方法,其特征在于,所述方法包括:

提取多个用户中的每个用户第一时间段内在网络中发布的第一舆情数据;

对所述每个用户的第一舆情数据进行聚类,得到所述每个用户的第一主题词;

根据所述第一主题词对所述多个用户进行划分,得到所述第一时间段内的多个第一用户簇和每个第一用户簇对应的第一舆情主题,包括:根据所述第一主题词以所述多个用户为节点构建第一舆情网络,根据所述第一舆情网络计算所述每个用户的密度值,根据所述每个用户的密度值确定第一用户簇中心点,得到所述第一用户簇中心点对应的第一用户簇,将所述多个用户中与所述第一用户簇中心点相距预设跳数内的用户加入所述第一用户簇,根据所述第一用户簇的第一主题词生成所述第一用户簇对应的第一舆情主题,其中,所述根据所述第一主题词以所述多个用户为节点构建第一舆情网络,包括:连接所述多个用户中有相同的第一主题词的两个用户,根据相连接的两个用户之间相同的第一主题词的数量确定该相连接的两个用户之间的权值;

提取所述每个用户第二时间段内在网络中发布的第二舆情数据;

对所述每个用户的第二舆情数据进行聚类,得到所述每个用户的第二主题词;

根据所述第二主题词对所述多个用户进行划分,得到所述第二时间段内的多个第二用户簇和每个第二用户簇对应的第二舆情主题;

确定所述第一舆情主题和所述第二舆情主题中相同的舆情主题,根据所述相同的舆情主题对应的第一用户簇和第二用户簇确定所述相同的舆情主题的演化阶段,所述演化阶段包括上升阶段、停滞阶段和下降阶段。

2.如权利要求1所述的方法,其特征在于,所述对所述每个用户的第一舆情数据进行聚类,得到所述每个用户的第一主题词包括:采用向量空间模型表示所述第一舆情数据,将所述第一舆情数据中的每个文本用所述向量空间模型中的一个文本向量表示,将所述第一舆情数据的每个文本向量作为一个簇;

循环执行计算所述第一舆情数据的每两个簇之间的相似度,将相似度最大的两个簇合并为一个新的簇,直至所述第一舆情数据的簇的数量达到预设数量;

从所述第一舆情数据的簇中提取所述第一主题词。

3.如权利要求2所述的方法,其特征在于,所述采用向量空间模型表示所述第一舆情数据,将所述第一舆情数据中的每个文本用所述向量空间模型中的一个文本向量表示包括:对所述每个用户的第一舆情数据进行停用词过滤处理、分词处理,得到所述每个用户的第一舆情数据包含的不同的词条;

将所述多个用户中所有用户的第一舆情数据包含的所有不同的词条作为所述向量空间模型中不同的正交维度,根据所述每个用户的第一舆情数据中的每个文本包含的不同的词条计算所述每个文本在每个正交维度的坐标值,得到所述每个文本对应的文本向量;

基于所述多个用户中所有用户的第一舆情数据包含的所有不同的词条的信息增益缩减所述向量空间模型的维度。

4.如权利要求2所述的方法,其特征在于,所述计算所述第一舆情数据的每两个簇之间的相似度包括:若两个簇中的每个簇只包括一个文本向量,两个簇之间的相似度为两个簇中的两个文本向量之间的离差平方和的倒数或两个簇中的两个文本向量之间的欧式距离的倒数;

若两个簇中的每个簇包括两个或两个以上文本向量,两个簇之间的相似度为两个簇之间的离差平方和的倒数或两个簇的质心之间的欧式距离的倒数。

5.如权利要求2所述的方法,其特征在于,所述从所述第一舆情数据的簇中提取所述第一主题词包括:从所述第一舆情数据的文本向量最多的簇中提取信息增益最大的词条作为所述第一主题词;或者从所述第一舆情数据的文本向量最多的簇中提取信息增益大于预设增益阈值的词条作为所述第一主题词;或者从所述第一舆情数据的离差平方和最小的簇中提取权重最大的词条作为所述第一主题词;或者从所述第一舆情数据的离差平方和小于预设离差平方和的每个簇中提取权重最大的词条作为所述第一主题词。

6.一种舆情分析装置,其特征在于,所述装置包括:

第一提取模块,用于提取多个用户中的每个用户第一时间段内在网络中发布的第一舆情数据;

第一聚类模块,用于对所述每个用户的第一舆情数据进行聚类,得到所述每个用户的第一主题词;

第一划分模块,用于根据所述第一主题词对所述多个用户进行划分,得到所述第一时间段内的多个第一用户簇和每个第一用户簇对应的第一舆情主题,包括:根据所述第一主题词以所述多个用户为节点构建第一舆情网络,根据所述第一舆情网络计算所述每个用户的密度值,根据所述每个用户的密度值确定第一用户簇中心点,得到所述第一用户簇中心点对应的第一用户簇,将所述多个用户中与所述第一用户簇中心点相距预设跳数内的用户加入所述第一用户簇,根据所述第一用户簇的第一主题词生成所述第一用户簇对应的第一舆情主题,其中,所述根据所述第一主题词以所述多个用户为节点构建第一舆情网络,包括:连接所述多个用户中有相同的第一主题词的两个用户,根据相连接的两个用户之间相同的第一主题词的数量确定该相连接的两个用户之间的权值;

第二提取模块,用于提取所述每个用户第二时间段内在网络中发布的第二舆情数据;

第二聚类模块,用于对所述每个用户的第二舆情数据进行聚类,得到所述每个用户的第二主题词;

第二划分模块,用于根据所述第二主题词对所述多个用户进行划分,得到所述第二时间段内的多个第二用户簇和每个第二用户簇对应的第二舆情主题;

确定模块,用于确定所述第一舆情主题和所述第二舆情主题中相同的舆情主题,根据所述相同的舆情主题对应的第一用户簇和第二用户簇确定所述相同的舆情主题的演化阶段,所述演化阶段包括上升阶段、停滞阶段和下降阶段。

7.一种计算机装置,其特征在于,所述计算机装置包括处理器,所述处理器用于执行存储器中存储的计算机程序以实现如权利要求1‑5中任一项所述舆情分析方法。

8.一种计算机存储介质,所述计算机存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1‑5中任一项所述舆情分析方法。