1.一种疾病发病预测方 法,应用于电子装置,其特征在于,提取以周为频次的疾病发病人数的数据和对应的天气数据,组成疾病数据;
利用特征工程进行特征提取,然后再通过奇异值分解的方法进行特征降维,获取设定维度的特征数据集,并以特征数据集中的部分数据作为训练数据,另一部分数据作为测试数据;
利用SARIMA模型对疾病数据进行平稳化处理分别得出d阶非季节性差分与D阶季节性差分;
将训练数据输入SARIMA模型,确定参数:非季节性分差次数d,非季节性自回归项数p,非季节性移动平均算子的最大滞后阶数q,季节性差分次数D、季节性自回归项数P,季节性移动平均算子的最大滞后阶数Q;
运用经过训练的SARIMA模型对疾病的周发病人数进行预测;其中,将经过训练的SARIMA模型作为一个参数K,结合温度T、降水W、气压PR来更进一步判断周发病人数,经过训练的SARIMA模型产生预测数据,将参数K、温度T、降水W、气压PR,输入到Lasso回归模型中,并通过训练数据,确定参数K、温度T、降水W、气压PR在预测上的权重分配,其中,参数K的训练数据即为经过训练的SARIMA模型的预测数据,即经过训练的SARIMA模型的输入即为参数K的输入,经过训练的SARIMA模型的输出即为Lasso回归模型的输入,Lasso回归模型公式如下,其中,前四项是分别对应参数K、温度T、降水W、气压PR四项在Lasso回归模型中的权重分配,λ||β||1是惩罚函数,通过训练数据输入Lasso回归模型,获取权重参数X1、X2、X3、X4的数值,从而确定Lasso回归模型,并以该Lasso回归模型来预测疾病的周发病人数,其中,y为预测的周发病人数;
λ为惩罚函数的系数;
X1、X2、X3、X4为权重参数;
β是估计参数。
2.根据权利要求1所述的疾病发病预测方 法,其特征在于:SARIMA模型为基于周期为s的时间序列模型,表达式如下:其中,L为非季节性疾病时间序列的滞后算子;
s
L为季节性疾病时间序列的滞后算子;
d
Δ为d次疾病的非季节性差分;
为D次疾病的非季节性差分;
代表了系数为p的自回归(MA(q))多项式;
代表了系数为q的移动平均多项式;
BQ代表系数为Q的季节移动平均多项式;
Δ与Δs分别表示非季节与s期季节性差分;
d,D分别表示的非季节与季节性差分数,用于把时间性季节序列yt转换为一个平稳的时间序列;
ut是白噪声;
s
与Ap(L)用来分别表示为非季节与季节性自回归算子;
s
与BQ(L)用来分别称为非季节与季节移动平均算子;
p表示为非季节性自回归项数;
q表示为非季节性移动平均算子的最大滞后阶数;
P表示为季节性自回归项数;
Q表示为季节性移动平均算子的最大滞后阶数。
3.根据权利要求1所述的疾病发病预测方 法,其特征在于:在利用特征工程扩充特征维度之前,先将所述疾病数据进行特征预处理,所述特征预处理包括填补缺失值、删除异常值。
4.根据权利要求1所述的疾病发病预测方 法,其特征在于:疾病发病人数的数据包括手足口病的数据。
5.根据权利要求1所述的疾病发病预测方 法,其特征在于:提取以周为频次的疾病发病人数的数据和对应的天气数据的方法是:将以天为频次的疾病发病人数转化为以周为频次的疾病发病人数,利用爬虫方法从网站上爬取对应周次的天气数据,所述天气数据包括气温、气压、降水、湿度、风力数据,并对各天气数据求取平均值,作为以周为频次的疾病发病人数对应的天气数据。
6.一种电子装置,其特征在于,该电子装置包括:存储器和处理器,所述存储器中存储有疾病发病预测程序,所述疾病发病预测程序被所述处理器执行时实现如下步骤:提取以周为频次的疾病发病人数的数据和对应的天气数据,组成疾病数据;
利用特征工程进行特征提取,然后再通过奇异值分解的方法进行特征降维,获取设定维度的特征数据集,并以特征数据集中的部分数据作为训练数据,另一部分数据作为测试数据;
利用SARIMA模型对疾病数据进行平稳化处理分别得出d阶非季节性差分与D阶季节性差分;
将训练数据输入SARIMA模型,确定参数:非季节性分差次数d,非季节性自回归项数p,非季节性移动平均算子的最大滞后阶数q,季节性差分次数D、季节性自回归项数P,季节性移动平均算子的最大滞后阶数Q;
运用经过训练的SARIMA模型对疾病的周发病人数进行预测;其中,将经过训练的SARIMA模型作为一个参数K,结合温度T、降水W、气压PR来更进一步判断周发病人数,经过训练的SARIMA模型产生预测数据,将参数K、温度T、降水W、气压PR,输入到Lasso回归模型中,并通过训练数据,确定参数K、温度T、降水W、气压PR在预测上的权重分配,其中,参数K的训练数据即为经过训练的SARIMA模型的预测数据,即经过训练的SARIMA模型的输入即为参数K的输入,经过训练的SARIMA模型的输出即为Lasso回归模型的输入,Lasso回归模型公式如下,其中,前四项是分别对应参数K、温度T、降水W、气压PR四项在Lasso回归模型中的权重分配,λ||β||1是惩罚函数,通过训练数据输入Lasso回归模型,获取权重参数X1、X2、X3、X4的数值,从而确定Lasso回归模型,并以该Lasso回归模型来预测疾病的周发病人数,其中,y为预测的周发病人数;
λ为惩罚函数的系数;
X1、X2、X3、X4为权重参数;
β是估计参数。
7.根据权利要求6所述的电子装置,其特征在于:SARIMA模型为基于周期为s的时间序列模型,表达式如下:其中,L为非季节性疾病时间序列的滞后算子;
s
L为季节性疾病时间序列的滞后算子;
d
Δ为d次疾病的非季节性差分;
为D次疾病的非季节性差分;
代表了系数为p的自回归(MA(q))多项式;
代表了系数为q的移动平均多项式;
BQ代表系数为Q的季节移动平均多项式;
Δ与Δs分别表示非季节与s期季节性差分;
d,D分别表示的非季节与季节性差分数,用于把时间性季节序列yt转换为一个平稳的时间序列;
ut是白噪声;
s
与Ap(L)用来分别表示为非季节与季节性自回归算子;
s
与BQ(L)用来分别称为非季节与季节移动平均算子;
p表示为非季节性自回归项数;
q表示为非季节性移动平均算子的最大滞后阶数;
P表示为季节性自回归项数;
Q表示为季节性移动平均算子的最大滞后阶数。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时,实现权利要求1至5中任一项所述的疾病发病预测方法。