1.一种数据采集系统,其特征在于,包括:
信息获取模块,用以获取政务信息的数据来源、发布时间和数据信息;
信息分析模块,用以根据数据信息和发布时间对时效参数进行分析,还用以根据数据信息对简化标题进行分析;
采集分析模块,用以根据时效参数和简化标题对政务信息的采集方式进行分析;
分析调整模块,用以根据简化标题、数据来源和数据信息对数据源质量进行分析,并根据数据源质量对政务信息的采集方式的分析过程进行调整;所述分析调整模块设有相似度分析单元,其用以根据简化标题和数据来源对标题相似度进行分析;所述分析调整模块还设有质量分析单元,其用以根据标题相似度、数据来源和信息内容对数据源质量进行分析;
所述分析调整模块还设有采集调整单元,其用以根据数据源质量对政务信息的采集方式的分析过程进行调整;
分析优化模块,用以根据数据来源和发布时间对数据源稳定性进行分析,并根据数据源稳定性对政务信息的采集方式的调整过程进行优化;
信息采集模块,用以根据政务信息的采集方式对政务信息进行采集;
采集反馈模块,用以获取采集后的政务信息的使用情况,并根据采集后的政务信息的使用情况对政务信息的采集方式的优化过程进行校正;
所述信息分析模块设有时效分析单元,其用以根据预设时效关键词和信息内容对终止时间进行分析,其中:当信息内容中存在预设时效关键词时,所述时效分析单元将预设时效关键词对应的信息内容中的文字作为终止时间;
当信息内容中不存在预设时效关键词时,所述时效分析单元判定不存在终止时间;
所述时效分析单元根据是否存在终止时间对时效参数进行分析,其中:当存在终止时间时,所述时效分析单元将当前时间和发布时间之间的时间间隔作为已发布时间,将终止时间和当前时间的时间间隔作为剩余时效时间,并根据已发布时间和剩余时效时间对时效参数进行分析,设定T=y1/y2;
当不存在终止时间时,所述时效分析单元对时效参数T进行分析,设定T=1;
其中,y1表示已发布时间,y2表示剩余时效时间;
所述采集分析模块根据时效参数和简化标题的字数对采集参数C进行分析,设定C=T/logL(A),其中,L(A)表示简化标题的字数,A表示简化标题;
所述采集分析模块将采集参数与采集阈值进行比对,并根据比对结果对政务信息的采集方式进行分析,其中:当C≥c时,所述采集分析模块判定对政务信息进行采集;
当C<c时,所述采集分析模块判定不对政务信息进行采集;
其中,c表示采集阈值,其取值范围为0.6≤c<1;
所述质量分析单元将标题相似度与相似度阈值进行比对,并根据比对结果、数据来源和信息内容对数据源质量进行分析,其中:当Q≥q时,所述质量分析单元将数据来源不同的两个信息内容进行比对,将比对结果作为数据源质量;
当Q<q时,所述质量分析单元不对数据源质量进行分析;
其中,Q表示标题相似度,q表示相似度阈值,其取值范围为:0.9≤q<1;
所述质量分析单元在对数据源质量进行分析时,根据的标点符号对数据来源为官方网站的信息内容进行分句处理,得到多组短句,并将短句与数据来源为社交媒体的信息内容进行匹配,根据匹配结果对数据源质量进行分析,其中:当数据来源为社交媒体的信息内容中存在短句时,所述质量分析单元对数据来源为社交媒体的信息内容中存在短句的数量进行统计,并根据统计结果对数据源质量W进行分析,设定W=Q×w1/w;
当数据来源为社交媒体的信息内容中不存在短句时,所述质量分析单元不对数据来源为社交媒体的信息内容中存在短句的数量进行统计;
其中,w1表示数据来源为社交媒体的信息内容中存在短句的数量,w表示短句的数量;
所述分析优化模块设有稳定性分析单元,其用以根据数据来源和发布时间对数据源稳定性进行分析,所述稳定性分析单元将数据来源相同的发布时间的数量作为发布数量,并将各相邻的发布时间的时间间隔作为发布间隔,将最后一次发布时间与当前时间的时间间隔作为未发布间隔,并根据发布数量、发布间隔和未发布间隔对数据源稳定性进行R分析,设定R=[t12+t23+...+t(j‑1)j]/(j‑1)/tj,其中,t12表示第一次发布和第二次发布的发布间隔,t23表示第二次发布和第三次发布的发布间隔,t(j‑1)j表示倒数第二次发布和最后一次发布的发布间隔,j表示发布数量,tj表示未发布间隔。
2.根据权利要求1所述的数据采集系统,其特征在于,所述信息分析模块还设有标题分析单元,其用以根据预设标题关键词对信息标题进行分析,其中:当信息标题中存在预设标题关键词时,所述标题分析单元去除信息标题中的预设标题关键词,将去除预设标题关键词后的信息标题作为简化标题;
当信息标题中不存在预设标题关键词时,所述标题分析单元不对信息标题进行去除操作。
3.根据权利要求1所述的数据采集系统,其特征在于,所述相似度分析单元根据简化标题和数据来源对标题相似度进行分析,其中:当数据来源不同时,所述相似度分析单元对标题相似度Q进行分析,设定Q=2×s/[L(a1)+L(a2)];
当数据来源相同时,所述相似度分析单元不对标题相似度Q进行分析,设定Q=0;
其中,s表示数据来源不同的两个简化标题中相同文字数量,L(a1)和L(a2)分别表示数据来源不同的两个简化标题的字数,a1和a2分别表示数据来源不同的两个简化标题。
4.根据权利要求1所述的数据采集系统,其特征在于,所述采集调整单元其用以根据数据源质量对采集阈值进行调整,调整后的采集阈值为c1,设定c1=c/W。
5.根据权利要求1所述的数据采集系统,其特征在于,所述分析优化模块还设有采集优化单元,其用以根据数据源稳定性与稳定性阈值进行比对,并根据比对结果对采集阈值的调整过程进行优化,其中:当R≥r时,所述采集优化单元判定数据源稳定,不对采集阈值的调整过程进行优化;
当R<r时,所述采集优化单元判定数据源不稳定,对采集阈值的调整过程进行优化,优化后采集阈值为c2,设定c2=c1/R;
其中,r表示稳定性阈值,其取值范围为0.8≤r≤1。
6.根据权利要求5所述的数据采集系统,其特征在于,所述采集反馈模块根据采集后的政务信息的使用情况对采集阈值的优化过程进行校正,其中:当D1/(D1+D2)>d时,所述采集反馈模块判定使用情况正常,不对采集阈值的优化过程进行校正;
当D1/(D1+D2)≤d时,所述采集反馈模块判定使用情况异常,对采集阈值的优化过程进行校正,校正后的采集阈值为c3,设定c3=c2×2×D1/(D1+D2);
其中,D1表示使用情况为已使用的采集后的政务信息数量,D2表示使用情况为未使用的采集后的政务信息数量,d表示校正阈值,其取值范围为0.8≤d<1。