1.一种基于大数据分析技术的胃癌疾病风险检测装置,其特征在于,主要包括数据采集模块、数据库、数据预处理模块、特征提取模块和风险评估模块;
所述数据采集模块获取测试者基本数据,并存储在数据库的疾病风险数据集中;
所述数据库存储数据预处理模块、特征提取模块和风险评估模块;
所述数据预处理模块对疾病风险数据集进行预处理,得到预处理后的疾病风险数据样本单元x1,…,xn,并发送至特征提取模块;
所述特征提取模块利用近邻成分分析法提取疾病风险数据单元x1,…,xn的特征,从而建立风险特征数据集T={(x1,y1),...,(xn,yn)},并发送至风险评估模块;
特征提取模块利用近邻成分分析法提取疾病风险数据样本单元x1,…,xn特征的主要步骤如下:
1)给定疾病风险数据样本单元x1,…,xn,计算疾病风险数据样本单元xi和疾病风险数据样本单元xj之间的加权距离Dw(xi,xj),即:式中,xi为d维特征向量;w为权重向量;wl是关联于第l个特征的权值;|xil‑xjl|表示第l个特征下疾病风险数据单元xi和疾病风险数据单元xj距离绝对值;i=1,2,…,n;j=1,
2,…,n;
2)基于留一法,计算疾病风险数据样本单元xi选择疾病风险数据样本单元xj作为近邻时的概率分布pij,即:式中,k(z)=exp(‑z/σ)是核函数;σ为核宽度;
3)将疾病风险数据样本单元xi通过近邻样本单元正确分类的概率pi如下所示:式中,yij为样本标签,当且仅当yi=yj时yij=1,否则yij=0;yi∈{1...C}为xi所对应的分类标签;
4)特征权重的目标函数ξ(w)如下所示:
式中,λ为正则化参数;λ≥0;
5)选取特征权重wl大于0的数据样本单元作为胃癌风险数据的特征属性,从而建立胃癌风险数据集T={(x1,y1),...,(xn,yn)};
所述风险评估模块对风险特征数据集T={(x1,y1),...,(xn,yn)}进行深度学习,得到风险评估结果yc;yc=1,表示无高风险,yc=2,表示高风险;
风险评估结果yc如下所示:
式中,e为输出神经元的激活函数; 表示权重矩阵中第j个输入样本到连接到第c个输出神经元的权重;xi为疾病风险数据样本单元; 表示权重矩阵中第i个输入样本连接到第j个神经元的权重,rj为输入样本到隐藏层第j神经元的偏置;rc为第c神经元输出的偏置;f为输入层到隐藏层的激活函数。
2.根据权利要求1所述的一种基于大数据分析技术的胃癌疾病风险检测装置,其特征在于:所述测试者基本数据主要包括身高、年龄、体重、性别、每日饮食、生活环境、既往患病史、恶性肿瘤家族史数据和测试者防癌风险评估等级数据。
3.根据权利要求1或2所述的一种基于大数据分析技术的胃癌疾病风险检测装置,其特征在于:数据预处理模块对疾病风险数据集进行预处理的主要步骤如下:
1)删除疾病风险数据集中数据信息缺失项大于80%的行或列,从而更新疾病风险数据集;
2)将更新后的疾病风险数据集中的离散项进行数值化标注:判断测试者基本数据影响风险评估结果的概率,若概率大于50%,则将测试者基本数据数值化为2,相反,则将测试者基本数据数值化为1;
3)将更新后的疾病风险数据集中的连续项整合,再进行数值化标注;
4)基于数值化标注结果,建立预处理后的疾病风险数据单元x1,…,xn。
4.根据权利要求1所述的一种基于大数据分析技术的胃癌疾病风险检测装置,其特征在于,所述数据采集模块通过通信网络与医院信息装置和/或测试者终端互联,从而获取测试者基本数据。
5.根据权利要求1所述的一种基于大数据分析技术的胃癌疾病风险检测装置,其特征在于,还包括计算机可读介质;
所述计算机可读介质内写入数据库所有数据。