利索能及
我要发布
收藏
专利号: 2014107428903
申请人: 北京国双科技有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2025-11-19
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种网页关键词出现频次检测方法,其特征在于,包括:

确定第一待检测网页关键词和第二待检测网页关键词,其中,所述第一待检测网页关键词属于第二待检测网页关键词,所述第一待检测网页关键词属于所述第二待检测网页关键词是指所述第二待检测网页关键词包含所述第一待检测网页关键词;

对所述第二待检测网页关键词发出访问请求,并获取请求结果,其中,所述请求结果包括所述第二待检测网页关键词对应的多个链接地址;

分别获取所述多个链接地址对应的多个网页的网页内容;以及

检测在所述多个网页的网页内容中出现所述第一待检测网页关键词的网页的个数。

2.根据权利要求1所述的方法,其特征在于,检测在所述多个网页的网页内容中出现所述第一待检测网页关键词的网页的个数之后,所述方法还包括:分别检测所述第一待检测网页关键词在所述多个网页的网页内容中出现时网页内容的情感倾向特征,其中,所述情感倾向特征包括正面情感倾向特征和负面情感倾向特征;以及分别统计所述第一待检测网页关键词在所述多个网页的网页内容中出现时网页内容的情感倾向特征为正面情感倾向特征和负面情感倾向特征的次数。

3.根据权利要求1所述的方法,其特征在于,检测在所述多个网页的网页内容中出现所述第一待检测网页关键词的网页的个数之后,所述方法还包括:统计所述第二待检测网页关键词对应的多个链接地址的个数;以及

根据在所述多个网页的网页内容中出现所述第一待检测网页关键词的网页的个数和所述第二待检测网页关键词对应的多个链接地址的个数计算所述第一待检测网页关键词的出现比率。

4.根据权利要求1所述的方法,其特征在于,检测在所述多个网页的网页内容中出现所述第一待检测网页关键词的网页的个数之后,所述方法还包括:确定第三待检测网页关键词,其中,所述第三待检测网页关键词属于所述第二待检测网页关键词,所述第三待检测网页关键词和所述第一待检测网页关键词为不同的网页关键词;

检测在所述多个网页的网页内容中出现所述第三待检测网页关键词的网页的个数;以及将在所述多个网页的网页内容中出现所述第一待检测网页关键词的网页的个数和在所述多个网页的网页内容中出现所述第三待检测网页关键词的网页的个数进行比较,并获取比较结果。

5.根据权利要求1所述的方法,其特征在于,分别获取所述多个链接地址对应的多个网页的网页内容包括:利用爬虫爬取技术分别获取所述多个链接地址对应的多个网页的网页内容。

6.根据权利要求1所述的方法,其特征在于,对所述第二待检测网页关键词发出访问请求,并获取请求结果,其中,所述请求结果包括所述第二待检测网页关键词对应的多个链接地址包括:确定预设参考数量,其中,所述预设参考数量为预先设定的获取所述第二待检测网页关键词对应的链接地址的数量;

对所述第二待检测网页关键词发出访问请求,获取请求结果,其中,所述请求结果包括所述第二待检测网页关键词对应的多个链接地址;以及按照搜索热度由强到弱的顺序,从所述第二待检测网页关键词对应的多个链接地址中获取数量为所述预设参考数量的多个链接地址。

7.一种网页关键词出现频次检测装置,其特征在于,包括:

第一确定单元,用于确定第一待检测网页关键词和第二待检测网页关键词,其中,所述第一待检测网页关键词属于第二待检测网页关键词,所述第一待检测网页关键词属于所述第二待检测网页关键词是指所述第二待检测网页关键词包含所述第一待检测网页关键词;

第一获取单元,用于对所述第二待检测网页关键词发出访问请求,并获取请求结果,其中,所述请求结果包括所述第二待检测网页关键词对应的多个链接地址;

第二获取单元,用于分别获取所述多个链接地址对应的多个网页的网页内容;以及第一检测单元,用于检测在所述多个网页的网页内容中出现所述第一待检测网页关键词的网页的个数。

8.根据权利要求7所述的装置,其特征在于,所述装置还包括:

第二检测单元,用于分别检测所述第一待检测网页关键词在所述多个网页的网页内容中出现时网页内容的情感倾向特征,其中,所述情感倾向特征包括正面情感倾向特征和负面情感倾向特征;以及第一统计单元,用于分别统计所述第一待检测网页关键词在所述多个网页的网页内容中出现时网页内容的情感倾向特征为正面情感倾向特征和负面情感倾向特征的次数。

9.根据权利要求7所述的装置,其特征在于,所述装置还包括:

第二统计单元,用于统计所述第二待检测网页关键词对应的多个链接地址的个数;以及计算单元,用于根据在所述多个网页的网页内容中出现所述第一待检测网页关键词的网页的个数和所述第二待检测网页关键词对应的多个链接地址的个数计算所述第一待检测网页关键词的出现比率。

10.根据权利要求7所述的装置,其特征在于,所述装置还包括:

第二确定单元,用于确定第三待检测网页关键词,其中,所述第三待检测网页关键词属于所述第二待检测网页关键词,所述第三待检测网页关键词和所述第一待检测网页关键词为不同的网页关键词;

第三检测单元,用于检测在所述多个网页的网页内容中出现所述第三待检测网页关键词的网页的个数;以及第三获取单元,用于将在所述多个网页的网页内容中出现所述第一待检测网页关键词的网页的个数和在所述多个网页的网页内容中出现所述第三待检测网页关键词的网页的个数进行比较,并获取比较结果。