利索能及
我要发布
收藏
专利号: 2017102485373
申请人: 济南大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-11-27
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种概率主题计算与匹配的舆情监测方法,其特征是,包括:步骤(1):数据采集:

步骤(101):数据采集解析:利用爬虫集群从数据源中采集页面HTML,然后爬虫集群依据规则库对采集到的页面HTML进行解析得到若干条媒体数据;解析出来的每一条媒体数据均被称作一篇文档,每篇文档包括标题、时间与内容;

所述规则库包括一组选择器;

所述爬虫集群使用选择器从采集到的页面HTML解析出包含标题、时间和内容属性的文档;所述选择器包括三种,分别是元素选择器、属性选择器、联合选择器;

所述元素选择器通过HTML标签名称、HTML标签ID或HTML标签类名选择相应的元素;

所述属性选择器通过HTML标签属性值、HTML标签属性值模糊匹配或HTML标签属性值正则匹配选择相应的元素;

所述联合选择器通过元素ID、元素类名、元素属性、相同祖先元素的子元素或相同父母元素的子元素选择相应的元素;

步骤(102):存储推送:所述爬虫集群采用异步方式将解析得到的文档存储在全文检索系统,采用同步方法将解析得到的文档推送至步骤(3)进行主题匹配;

步骤(2):主题计算:

步骤(201):中文分词:从全文检索系统中读取文档,将每个文档的标题与内容合并,利用条件随机场分词算法对合并后的内容进行分词,分词后去掉停用词;

步骤(202):主题估计:采用Gibbs抽样对分词后的内容估计出主题库与历史文档主题集;

步骤(3):主题匹配:将数据采集实时推送的文档推断出实际文档主题集,并将实际文档主题集与用户输入的舆情监测关键词进行匹配,得到有序文档集。

2.如权利要求1所述的一种概率主题计算与匹配的舆情监测方法,其特征是,所述步骤(3)包括如下步骤:步骤(301):文档分发:按轮询模式将数据采集实时推送的文档并行分发下去;

步骤(302):中文分词:将分发得到的每个文档的标题与对应内容合并后,用条件随机场CRF算法进行分词,然后去掉停用词;

步骤(303):主题推断:采用Gibbs抽样对分词后的内容和主题估计得到的主题库推断出实时文档主题集;

步骤(304):关键词匹配:将实时文档主题集与用户输入的舆情监测关键词进行匹配;

步骤(305):排序:按照文档评分从高到低对匹配后的文档集进行排序形成有序文档集。

3.如权利要求1所述的一种概率主题计算与匹配的舆情监测方法,其特征是,还包括:步骤(4):舆情监测:根据步骤(3)得到的有序文档集中的排序,得出舆情的监控情况,排序越靠前的,越是当前舆情关注的热点。

4.如权利要求1所述的一种概率主题计算与匹配的舆情监测方法,其特征是,主题计算中的主题估计,将主题估计抽象为Map任务与Reduce任务进行计算,步骤为:Map任务,求解隐变量:为每个关键词随机生成一个主题,为每个文档计算伪频数,计算主题的后验概率;

Reduce任务,求解模型参数:将每个主题关键词的伪频数叠加后标准化,计算出每个主题的关键词分布与每个文档的主题分布;

主题存储:由每个主题的关键词分布归纳出后验概率最大的前M个主题,形成主题库;

每个文档的主题分布中选择概率最大的前N个,形成文档主题集。

5.如权利要求2所述的一种概率主题计算与匹配的舆情监测方法,其特征是,所述文档评分为文档相关度和文档助推值的乘积;

所述文档相关度为舆情监测关键词与文档主题的近似度,先计算舆情监测关键词与实际文档主题中的每个关键词的近似度,然后计算每个近似度与域助推值乘积,然后对所有的乘积进行求和;所述域助推值反映了文档中每个主题的重要程度,其值为该文档主题的后验概率。

6.如权利要求5所述的一种概率主题计算与匹配的舆情监测方法,其特征是,所述文档助推值为文档重复次数、情感度、PageRank三者的乘积;

所述文档重复次数为该文档在采集数据出现的重复次数,重复次数越高说明该文档越热门;

所述情感度为该文档的情感评分,情感评分采用递归深度语义组合模型计算,情感评分越高说明该文档越积极,情感评分越低说明该文档越消极;情感评分五级制,-2分表示非常消极、-1表示消极、0表示中性、1表示积极、2表示积极;

所述PageRank反映了该文档的原始网页的链接引用情况,PageRank越高说明该文档的原始网页被引用的次数越高,即该文档越热门。

7.一种概率主题计算与匹配的舆情监测系统,其特征是,包括:数据采集模块、主题计算模块和主题匹配模块;

所述数据采集模块,包括:

数据采集解析单元:利用爬虫集群从数据源中采集页面HTML,然后爬虫集群依据规则库对采集到的页面HTML进行解析得到若干条媒体数据;解析出来的每一条媒体数据均被称作一篇文档,每篇文档包括标题、时间与内容;

所述规则库包括一组选择器;

所述爬虫集群使用选择器从采集到的页面HTML解析出包含标题、时间和内容属性的文档;所述选择器包括三种,分别是元素选择器、属性选择器、联合选择器;

所述元素选择器通过HTML标签名称、HTML标签ID或HTML标签类名选择相应的元素;

所述属性选择器通过HTML标签属性值、HTML标签属性值模糊匹配或HTML标签属性值正则匹配选择相应的元素;

所述联合选择器通过元素ID、元素类名、元素属性、相同祖先元素的子元素或相同父母元素的子元素选择相应的元素;

存储推送单元:所述爬虫集群采用异步方式将解析得到的文档存储在全文检索系统,采用同步方法将解析得到的文档推送至主题匹配模块进行主题匹配;

所述主题计算模块,包括:

中文分词单元:从全文检索系统中读取文档,将每个文档的标题与内容合并,利用条件随机场分词算法对合并后的内容进行分词,分词后去掉停用词;

主题估计单元:采用Gibbs抽样对分词后的内容估计出主题库与历史文档主题集;

所述主题匹配模块:将数据采集实时推送的文档推断出实际文档主题集,并将实际文档主题集与用户输入的舆情监测关键词进行匹配,得到有序文档集。

8.如权利要求7所述的系统,其特征是,

所述主题匹配模块包括:

文档分发单元:按轮询模式将数据采集实时推送的文档并行分发下去;

中文分词单元:将分发得到的每个文档的标题与对应内容合并后,用条件随机场CRF算法进行分词,然后去掉停用词;

主题推断单元:采用Gibbs抽样对分词后的内容和主题估计得到的主题库推断出实时文档主题集;

关键词匹配单元:将实时文档主题集与用户输入的舆情监测关键词进行匹配;

排序单元:按照文档评分从高到低对匹配后的文档集进行排序形成有序文档集。

9.如权利要求7所述的系统,其特征是,还包括:

舆情监测模块:根据主题匹配模块得到的有序文档集中的排序,得出舆情的监控情况,排序越靠前的,越是当前舆情关注的热点。