1.基于金融异构大数据的信息采集系统,包括互联网信息源、Linux后台服务端系统、Web客户端程序系统和客户终端,其特征在于,所述互联网信息源、Linux后台服务端系统、Web客户端程序系统、客户终端依次相连,所述Linux后台服务端系统包括异构信息收集及预处理模块、抽取规则生成模块、信息抽取评估模块,所述异构信息收集及预处理模块、抽取规则生成模块、信息抽取评估模块依次相连,所述异构信息收集及预处理模块包括爬虫URL解析器、PDF解析器、搜索引擎检索器、HTML解析器、数据存储器,所述爬虫URL解析器、PDF解析器、搜索引擎检索器、HTML解析器、数据存储器依次相连,所述抽取规则生成模块包括规则归类单元、规则合成单元,所述规则归类单元和规则合成单元相连,所述规则合成单元包括匹配器、比较器、泛化器,所述匹配器、判断器、泛化器依次相连,所述信息抽取评估模块包括第一数据库、第二数据库、第一数据比较器,所述第一数据库和第二数据库均与第一数据比较器相连,
所述爬虫URL解析器用于从互联网信息源搜索最新发布的金融公告信息,并解析成PDF文档形式,或通过搜索引擎检索器处理成网页数据;
所述PDF解析器用于将PDF文档处理成可处理形式的纯文本数据;
所述HTML解析器用于将网页数据解析成纯文本数据;
所述规则归类单元用于将不同文档内针对同一目标实体的规则进行归类,进而得到同一目标的规则子集合;
所述匹配器用于将规则子集合匹配到训练样本上;
所述判断器用于判断是否还有训练集,无训练集时系统会完成规则子集合的规则生成,并最终形成规则库,有训练集时系统会重复规则子集合在训练样本上的匹配;
所述泛化器用于对现有规则进行泛化。
2.根据权利要求1所述的基于金融异构大数据的信息采集系统,其特征在于,所述爬虫URL解析器包括控制器模块、解析模块、资源库模块,所述解析模块包括网页抓取单元、网页信息特征提取单元、网页信息分类建模单元、数据储存单元、计算机分析单元和计算机显示单元,所述网页抓取单元、网页信息特征提取单元、网页信息分类建模单元依次相连,所述网页信息分类建模单元和数据储存单元均与计算机分析单元相连,所述计算机分析单元与计算机显示单元相连;所述计算机分析单元包括数据提取器、数据接收器和第二数据比较器。
3.根据权利要求1所述的基于金融异构大数据的信息采集系统,其特征在于,所述泛化器采用基于启发式函数的规则泛化方法,且采用Laplacian误差估计作为启发函数。
4.根据权利要求1所述的基于金融异构大数据的信息采集系统,其特征在于,所述第一数据库包括准确率、召回率、F‑measure三个参数,所述第二数据库存储有三个预先设置的且分别与准确率、召回率、F‑measure对应的基准值。
5.根据权利要求1所述的基于金融异构大数据的信息采集系统的控制方法,其特征在于,按以下步骤进行操作:
第一步:首先,系统在互联网信息源上使用爬虫URL解析器搜索最新发布的金融产品,当遇到无法处理的PDF文档时,爬虫URL解析器通过搜索引擎检索器检索Web页面进行替代,异构信息采集与预处理模块中设计了PDF文档和Web信息的解析器,负责对异构文档进行解析并从中提取出文本信息,转存为后续处理数据;
第二步:其次,在抽取规则生成模块中,系统从标注过的训练样本中生成规则集合,规则集合通过聚类和合成,将结果导入最终的规则库;
第三步:最后,系统通过信息抽取评估模块应用规则库在未知数据上进行信息抽取,系统处于迭代运行状态,异构信息收集和预处理模块不断向后续模块提供文本信息,当某次抽取任务无法满足预置要求时,文档会被记录下,并预备进入下一个异构信息处理过程。