1.一种急性传染病的发病周期预测方法,其特征在于,所述方法包括:获取预设种类的急性传染病的历史资料,根据所述急性传染病的固定周期,使用高纬度特征提取方法提取所述急性传染病的特征,形成高纬度全特征库;
使用重要性排序和支持向量机回归机降维方法,从所述高纬度全特征库中抽取表征所述急性传染病的特征数据,形成低纬度显著特征库;
使用预设模型对所述低纬度显著特征库进行训练学习,得到预测模型的参数,根据得到的参数构建急性传染病自动化预测模型;
基于预设数据中心的历史数据验证所述急性传染病自动化预测模型的准确性;及利用所述急性传染病自动化预测模型进行急性传染病的预测。
2.如权利要求1所述的急性传染病的发病周期预测方法,其特征在于,所述使用高纬度特征提取方法提取所述急性传染病的特征,形成高纬度全特征库,包括:对所述急性传染病历史资料进行预处理,去除重复、无效和空值数据,得到可用的历史数据集,形成文本数据;
利用自然语言处理方法对所述文本数据进行切词,并根据切词得到的词的词性去掉无用词,并利用TF-IDF算法生成急性传染病特征词;
建立列表矩阵,用于接收所述急性传染病特征词;
计算所述列表矩阵中的任意两个急性传染病特征词之间的余弦距离,将两个急性传染病特征词之间的余弦距离作为该两个急性传染病特征词的相似值;
根据计算得到的相似值及相似值阈值筛选出高相似度的特征词,构成高纬度特征词库;及给高纬度特征词库中的每个词贴文档标签,通过文档相似计算公式计算出文档标签之间的相似值,从而得到高纬度全特征库。
3.如权利要求2所述的急性传染病的发病周期预测方法,其特征在于,所述使用重要性排序和支持向量机回归机降维方法从高纬度全特征库中抽取表征急性传染病的特征数据,形成低纬度显著特征库,包括:导入所述高纬度全特征库,从所述高纬度全特征库中提取出包含的高纬度特征词;
构建二维表的特征词矩阵,其中列为编号,行为包含的词,将高纬度特征词存储于该特征词矩阵中;
将所述特征词矩阵从二维表转换为只包含词的一维表形式,只生成一列多行的高纬度特征词矩阵;
根据上述计算得到的两个特征词之间的相似值对高纬度特征词进行由大到小的重要性排序;
导入支持向量机回归机模型,计算高纬度特征词中每个词与核心点的距离;及根据所述距离值及预设阈值筛选高于该预设阈值的词,得到低纬度特征词表。
4.如权利要求1至3中任意一项所述的急性传染病的发病周期预测方法,其特征在于,所述预设模型为SARIMA模型与boosting框架的LightGBM组合模型。
5.如权利要求4所述的急性传染病的发病周期预测方法,其特征在于,所述使用预设模型对低纬度显著特征库进行训练学习,得到预测模型的参数,根据得到的参数构建急性传染病自动化预测模型,包括:(a)将所述低纬度特征词表导入boosting框架LightGBM模型;
(b)在所述boosting框架LightGBM模型中进一步导入所述SARIMA模型中的函数,包括:ADF检验函数、季节性分解函数、白噪声检验函数及自相关和偏自相关的绘图函数,其中所述季节性分解函数将所述低纬度特征词表分解为趋势、季节性和残差三部分;
(c)用所述ADF检验函数中的单位根检验算法,检验低纬度特征词表序列是否平稳;用季节性分解函数,分析分解后的趋势、季节性确认序列是否平稳;以及自相关性和偏自相关性,通过截尾或拖尾的lag值,来检验低纬度特征词表序列是否平稳;
(d)在稳定性检验通过后,根据低纬度特征词表的统计特征,包括平均值、中值、方差,设置SARIMA模型的初始参数;
(e)使用SARIMA模型的预测算法绘制拟合曲线和预测曲线;
(f)对拟合曲线和预测曲线的陡峭性进行分析,再回到上述步骤(d)调整参数,直到得到满足预设条件的拟合曲线和预测曲线。
6.一种急性传染病的发病周期预测装置,其特征在于,所述装置包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的急性传染病的发病周期预测程序,所述急性传染病的发病周期预测程序被所述处理器执行时实现如下步骤:获取预设种类的急性传染病的历史资料,根据所述急性传染病的固定周期,使用高纬度特征提取方法提取所述急性传染病的特征,形成高纬度全特征库;
使用重要性排序和支持向量机回归机降维方法,从所述高纬度全特征库中抽取表征所述急性传染病的特征数据,形成低纬度显著特征库;
使用预设模型对所述低纬度显著特征库进行训练学习,得到预测模型的参数,根据得到的参数构建急性传染病自动化预测模型;
基于预设数据中心的历史数据验证所述急性传染病自动化预测模型的准确性;及利用所述急性传染病自动化预测模型进行急性传染病的预测。
7.如权利要求6所述的急性传染病的发病周期预测装置,其特征在于,所述使用高纬度特征提取方法提取所述急性传染病的特征,形成高纬度全特征库包括:对所述急性传染病历史资料进行预处理,去除重复、无效和空值数据,得到可用的历史数据集,形成文本数据;
利用自然语言处理方法对所述文本数据进行切词,并根据切词得到的词的词性去掉无用词,并利用TF-IDF算法生成急性传染病特征词;
建立列表矩阵,用于接收所述急性传染病特征词;
计算所述列表矩阵中的任意两个急性传染病特征词之间的余弦距离,将两个急性传染病特征词之间的余弦距离作为该两个急性传染病特征词的相似值;
根据计算得到的相似值及相似值阈值筛选出高相似度的特征词,构成高纬度特征词库;及给高纬度特征词库中的每个词贴文档标签,通过文档相似计算公式计算出文档标签之间的相似值,从而得到高纬度全特征库。
8.如权利要求7所述的急性传染病的发病周期预测装置,其特征在于,所述使用重要性排序和支持向量机回归机降维方法从高纬度全特征库中抽取表征急性传染病的特征数据,形成低纬度显著特征库,包括:导入所述高纬度全特征库,从所述高纬度全特征库中提取出包含的高纬度特征词;
构建二维表的特征词矩阵,其中列为编号,行为包含的词,将高纬度特征词存储于该特征词矩阵中;
将所述特征词矩阵从二维表转换为只包含词的一维表形式,只生成一列多行的高纬度特征词矩阵;
根据上述计算得到的两个特征词之间的相似值对高纬度特征词进行由大到小的重要性排序;
导入支持向量机回归机模型,计算高纬度特征词中每个词与核心点的距离;及根据所述距离值及预设阈值筛选高于该预设阈值的词,得到低纬度特征词表。
9.如权利要求6至8中任意一项所述的急性传染病的发病周期预测装置,其特征在于,所述使用预设模型对低纬度显著特征库进行训练学习,得到预测模型的参数,根据得到的参数构建急性传染病自动化预测模型,包括:(a)将所述低纬度特征词表导入boosting框架LightGBM模型;
(b)在所述boosting框架LightGBM模型中进一步导入SARIMA模型中的函数,包括:ADF检验函数、季节性分解函数、白噪声检验函数及自相关和偏自相关的绘图函数,其中所述季节性分解函数将所述低纬度特征词表分解为趋势、季节性和残差三部分;
(c)用所述ADF检验函数中的单位根检验算法,检验低纬度特征词表序列是否平稳;用季节性分解函数,分析分解后的趋势、季节性确认序列是否平稳;以及自相关性和偏自相关性,通过截尾或拖尾的lag值,来检验低纬度特征词表序列是否平稳;
(d)在稳定性检验通过后,根据低纬度特征词表的统计特征,包括平均值、中值、方差,设置SARIMA模型的初始参数;
(e)使用SARIMA模型的预测算法绘制拟合曲线和预测曲线;
(f)对拟合曲线和预测曲线的陡峭性进行分析,再回到上述步骤(d)调整参数,直到得到满足预设条件的拟合曲线和预测曲线。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有急性传染病的发病周期预测程序,所述急性传染病的发病周期预测程序可被一个或者多个处理器执行,以实现如权利要求1至5中任一项所述的急性传染病的发病周期预测方法的步骤。