利索能及
我要发布
收藏
专利号: 2018103511280
申请人: 平安科技(深圳)有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种舆情数据预测方法,其特征在于,所述方法包括:

接收用户输入的疾病的至少一个关键词;

确定互联网中与所述关键词相关的数据源,并利用爬虫程序从所述数据源中爬取与所述关键词相关的疾病数据;

对所述疾病数据进行解析得到疾病的舆情因子;

对所述疾病的舆情因子进行数据清洗和异常值处理,其中,所述对所述的舆情因子进行异常值处理包括:根据所述疾病的舆情因子的分布对所述疾病的舆情因子进行缺失值替换,其中所述疾病的舆情因子的分布包括:稳定型及剧烈型;若所述疾病的舆情因子的分布为稳定性,采用K‑最近距离邻居法估计缺失的疾病的舆情因子,若所述疾病的舆情因子的分布为剧烈型,采用均值法计算得到疾病的舆情因子,并替代所缺失的疾病的舆情因子,将替代后的疾病的舆情因子与预设扩大系数进行求积,得到新的舆情因子作为最终的疾病的舆情因子;

对经过数据清洗和异常值处理之后的疾病的舆情因子进行数据标准化,得到新的疾病数据;及根据所述新的疾病数据计算疾病的舆情因子的衍生变量,根据所述衍生变量对疾病进行预测。

2.如权利要求1所述的方法,其特征在于,所述确定互联网中与所述关键词相关的数据源,并利用爬虫程序从所述数据源中爬取与所述关键词相关的疾病数据包括:确定互联网中与所述关键词相关的数据源,根据所述数据源的类型对所述数据源进行分类;

根据对与所述数据源进行分类得到的类别数,设置与所述类别数相同的多线程爬虫程序;

利用所述多线程爬虫程序分别从对应的所述数据源中爬取与所述关键词相关的疾病数据。

3.如权利要求1所述的方法,其特征在于,所述方法还包括:

根据计算出的衍生变量制作成图表进行可视化展示,所述衍生变量包括:最大值、最小值、平均数、方差、标准差、协方差、极差、中位数、众数、四分位数。

4.如权利要求1所述的方法,其特征在于,所述数据标准化包括以下一种或几种的组合:总和标准化、标准差标准化、极大值标准化或者极差标准化。

5.如权利要求1所述的方法,其特征在于,所述利用爬虫程序从所述数据源中爬取与所述关键词相关的疾病数据包括:利用爬虫程序在预设爬虫时间段内从所述数据源中爬取与所述关键词相关的疾病数据。

6.如权利要求1所述的方法,其特征在于,所述对所述疾病数据进行解析得到疾病的舆情因子包括:计算所述疾病的所有子舆情因子的数量总和,计算每一个子舆情因子占所述总和的百分比,所述百分比为对应的子舆情因子的权重,将权重大于预设权重阈值的子舆情因子确定为疾病的舆情因子。

7.如权利要求1所述的方法,其特征在于,所述对所述疾病的舆情因子进行数据清洗包括:根据所述疾病的舆情因子的类型对所述疾病的舆情因子进行数据清洗;或者直接丢弃有异常的疾病的舆情因子。

8.一种舆情数据预测装置,其特征在于,所述装置包括:

接收模块,用于接收用户输入的疾病的至少一个关键词;

爬取模块,用于确定互联网中与所述关键词相关的数据源,并利用爬虫程序从所述数据源中爬取与所述关键词相关的疾病数据;

解析模块,用于对所述疾病数据进行解析得到疾病的舆情因子;

清洗模块,用于对所述疾病的舆情因子进行数据清洗和异常值处理,其中,所述异常值处理包括:根据所述疾病的舆情因子的分布对所述疾病的舆情因子进行缺失值替换,其中所述疾病的舆情因子的分布包括:稳定型及剧烈型,若所述疾病的舆情因子的分布为稳定性,采用K‑最近距离邻居法估计缺失的疾病的舆情因子,若所述疾病的舆情因子的分布为剧烈型,采用均值法替代所缺失的疾病的舆情因子,将替代后的疾病的舆情因子与预设扩大系数进行求积,得到新的舆情因子作为最终的疾病的舆情因子;

标准化模块,用于对经过数据清洗和异常值处理之后的疾病的舆情因子进行数据标准化,得到新的疾病数据;及预测模块,用于根据所述新的疾病数据计算疾病的舆情因子的衍生变量,根据所述衍生变量对疾病进行预测。

9.一种终端,其特征在于,所述终端包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现如权利要求1至7中任意一项所述的舆情数据预测方法。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的舆情数据预测方法。