利索能及
我要发布
收藏
专利号: 2014106939653
申请人: 北京国双科技有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2025-11-19
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种分析对象特征信息的获取方法,其特征在于,包括:获取用于获取待分析对象的特征信息的获取请求;

获取所述待分析对象的关键词和所述关键词的属性信息;

检测所述待分析对象的第一文本信息中是否存在所述关键词;

若所述待分析对象的第一文本信息中存在所述关键词,则检测所述第一文本信息中是否存在所述属性信息;

若所述第一文本信息中存在所述属性信息,则确定所述关键词和所述属性信息所指示的所述特征信息,得到所述待分析对象的特征信息;

其中,在检测所述待分析对象的第一文本信息中是否存在所述关键词之前,所述获取方法包括:获取所述待分析对象的第二文本信息,其中,所述第二文本信息包括以下至少之一:其中,所述第二文本信息包括以下至少之一:通过爬虫代码从网站资源上爬取到的一个或多个网络文本、通过扫描纸质文件得到的电子文本、手动输入的电子文本;按照预设的划分方式将所述第二文本信息划分为多个所述第一文本信息;检测所述待分析对象的第一文本信息中是否存在所述关键词包括:按顺序逐个检测所述第一文本信息中是否存在所述关键词。

2.根据权利要求1中所述的获取方法,其特征在于,按照预设的划分方式将所述第二文本信息划分为多个所述第一文本信息包括:将所述第二文本信息中符合预设字数的片段作为所述第一文本信息;或将所述第二文本信息按照标点符号划分为多个所述第一文本信息;或将所述第二文本信息中符合预设词语数的片段作为所述第一文本信息。

3.根据权利要求1至2中任意一项所述的获取方法,其特征在于,检测所述第一文本信息中是否存在所述属性信息包括:检测所述第一文本信息中是否存在所述属性信息中的第一词语,其中,所述属性信息包括一个或多个所述第一词语;

若所述第一文本信息中存在所述第一词语,则确定所述第一文本信息中存在所述属性信息。

4.根据权利要求3所述的获取方法,其特征在于,在确定所述关键词和所述属性信息所指示的所述特征信息之后,所述获取方法还包括:统计各个所述第一词语的总数,及各个所述属性信息对应的所述第二文本信息的总数。

5.根据权利要求3所述的获取方法,其特征在于,确定所述关键词和所述属性信息所指示的所述特征信息包括:从所述第一文本信息中提取所述关键词和所述第一词语之间的所有第二词语;

将所述关键词、所述所有第二词语以及所述第一词语作为所述特征信息。

6.一种分析对象特征信息的获取装置,其特征在于,包括:第一获取模块,用于获取待分析对象的特征信息的获取请求;

第二获取模块,用于获取所述待分析对象的关键词和所述关键词的属性信息;

第一检测模块,用于检测所述待分析对象的第一文本信息中是否存在所述关键词;

第二检测模块,用于在所述待分析对象的第一文本信息中存在所述关键词的情况下,检测所述第一文本信息中是否存在所述属性信息;

第一确定模块,用于在所述第一文本信息中存在所述属性信息的情况下,确定所述关键词和所述属性信息所指示的所述特征信息,得到所述待分析对象的特征信息;

其中,所述获取装置包括:第三获取模块,用于在检测所述待分析对象的第一文本信息中是否存在所述关键词之前,获取所述待分析对象的第二文本信息,其中,所述第二文本信息包括以下至少之一:通过爬虫代码从网站资源上爬取到的一个或多个网络文本、通过扫描纸质文件得到的电子文本、手动输入的电子文本;划分模块,用于按照预设的划分方式将所述第二文本信息划分为多个所述第一文本信息;所述第一检测模块包括:第一检测子模块,用于按顺序逐个检测所述第一文本信息中是否存在所述关键词。

7.根据权利要求6中所述的获取装置,其特征在于,所述划分模块包括:第一划分子模块,用于划分所述第二文本信息中符合预设字数的片段作为所述第一文本信息;或第二划分子模块,用于将所述第二文本信息按照标点符号划分为多个所述第一文本信息;或第三划分子模块,用于划分所述第二文本信息中符合预设词语数的片段作为所述第一文本信息。

8.根据权利要求6至7中任意一项所述的获取装置,其特征在于,所述第二检测模块包括:第二检测子模块,用于检测所述第一文本信息中是否存在所述属性信息中的第一词语,其中,所述属性信息包括一个或多个所述第一词语;

第二确定模块,用于在所述第一文本信息中存在所述第一词语的情况下,确定所述第一文本信息中存在所述属性信息。

9.根据权利要求8所述的获取装置,其特征在于,所述获取装置还包括:统计模块,用于在确定所述关键词和所述属性信息所指示的所述特征信息之后,统计各个所述第一词语的总数,及各个所述属性信息对应的所述第二文本信息的总数。

10.根据权利要求8所述的获取装置,其特征在于,所述第一确定模块包括:提取模块,用于从所述第一文本信息中提取所述关键词和所述第一词语之间的所有第二词语;

确定子模块,用于确定所述关键词、所述所有第二词语以及所述第一词语作为所述特征信息。