1.一种金融证券舆情信息爬取方法,其特征在于,包括以下步骤:(1)下载金融社交网站的页面数据,利用爬虫爬取页面中针对金融证券市场中不同板块权重股的股票舆情;
(2)查询权重股的股票名称和代码,根据股票代码构造种子URL,将不同流通市值的股票对其所属板块影响不同这一特性与该只股票所对应的URL序列结合,得到面向金融证券的主题型结构化舆情信息;具体步骤如下:(a)查询股票板块的所有股票名称和代码,根据股票代码构造种子URL;
(b)以每只股票的流通市值作为权重构建股票板块的树型结构,离根节点越近的叶子节点权重越大,种子节点包含一个队列结构用于管理一只股票的URL序列;
(c)将所有板块股票的流通市值加和,构建成线段;
(d)在所述线段长度的范围内随机生成一个数,该数值坐落的区间即对应一只股票;
(e)从所述树型结构中查找到相应的股票,爬取相应的股票队列中存储序列第一位的URL链接;
(f)选取板块股票流通市值排名前30%的股票作为板块权重股,不断执行(d)和(e)步骤的操作,直到权重股队列中URL被爬取完。
2.根据权利要求1所述金融证券舆情信息爬取方法,其特征在于,步骤(1)中,所述爬虫的爬取策略如下:通过种子URL链接,进入相应的网页后爬取更多的URL,重复上述步骤,直至进入预设的层数后返回。
3.根据权利要求1所述金融证券舆情信息爬取方法,其特征在于,步骤(1)中,所述股票舆情来源为金融社交网站中的股票评论信息。
4.根据权利要求1所述金融证券舆情信息爬取方法,其特征在于,步骤(1)中,选取板块股票流通市值排名前30%的股票作为板块权重股。
5.一种爬取金融证券舆情信息的装置,其特征在于,包括以下单元:下载单元,用于下载金融社交网站的页面数据;
解析单元,用于利用爬虫爬取页面中针对金融证券市场中不同板块权重股的股票舆情,查询权重股的股票名称和代码,根据股票代码构造种子URL,将不同流通市值的股票对其所属板块影响不同这一特性与该只股票所对应的URL序列结合,得到面向金融证券的主题型结构化舆情信息;具体步骤如下:(a)查询股票板块的所有股票名称和代码,根据股票代码构造种子URL;
(b)以每只股票的流通市值作为权重构建股票板块的树型结构,离根节点越近的叶子节点权重越大,种子节点包含一个队列结构用于管理一只股票的URL序列;
(c)将所有板块股票的流通市值加和,构建成线段;
(d)在所述线段长度的范围内随机生成一个数,该数值坐落的区间即对应一只股票;
(e)从所述树型结构中查找到相应的股票,爬取相应的股票队列中存储序列第一位的URL链接;
(f)选取板块股票流通市值排名前30%的股票作为板块权重股,不断执行(d)和(e)步骤的操作,直到权重股队列中URL被爬取完。
6.根据权利要求5所述爬取金融证券舆情信息的装置,其特征在于:所述装置还包括以下单元:接收单元,用于接收终端发送的金融证券舆情信息抓取任务启动指令;
定时器单元,用于控制多线程环境下下载页面时长不能超过的限定时间;
URL管理单元,用于管理待抓取的URL、分配线程池以及去重;
持久化单元,用于将抓取的数据持久化到文件、数据库。
7.根据权利要求6所述爬取金融证券舆情信息的装置,其特征在于,所述持久化单元用于抽取解析后的金融证券舆情信息并持久化到文件、数据库,所述持久化的形式是键值对的Map数据结构。
8.根据权利要求5所述爬取金融证券舆情信息的装置,其特征在于,所述下载单元与因特网进行交互,抓取与金融证券主题相关的网页,网页数据下载采用非阻塞式多线程的HTTP协议来完成。
9.根据权利要求5所述爬取金融证券舆情信息的装置,其特征在于,所述解析单元抓取并解析下载的金融社交网站页面,根据主题型需求生成面向金融证券的结构化舆情信息,以及发现新的链接。