1.一种基于机器学习的慢性阻塞性肺疾病测试系统,其特征在于,包括:肺部机能检测装置,用于获取被测者肺部机能检测项目及其测量值;处理器,与肺部机能检测装置相连,具有主成分特征分析模块、决策树构建模块和决策树测试模块;显示单元,与处理器相连,用于输出处理器的结果;
还包括筛选模块,用于对所述被测者肺部机能检测项目及其测量值进行筛选,剔除被测者肺部机能非重要检测项目中的测量缺失值;
还包括拟合模块,用于对所述被测者肺部机能重要检测项目中的测量缺失值进行拟合补全;肺病检测报告中的变量VT、BF、MV、ERC、IC、FEF75/85、MMEF,缺失值因重要性高而缺失率低,通过拟合方法进行补充;
还包括转换模块,用于对经筛选和拟合后的被测者肺部机能检测项目测量值进行格式转换;
数据中的测试号、住院号、姓名、种族、科别,是非需求数据,因此将其直接删除掉;
所述主成分特征分析模块,建立与被测者肺部机能测量值相对应的第一样本,对所述第一样本进行因子分析,得到基于被测者肺部机能检测项目的若干个主成分特征,建立以若干个主成分特征所对应的样本集合为第二样本;
所述主成分特征分析模块包括偏相关性检验模块和因子分析模块;
所述偏相关性检验模块,用于检查被测者肺部机能检测项目测量值间的偏相关性;
所述因子分析模块,根据上述偏相关性,采用因子分析法对被测者肺部机能检测项目进行去相关化,得到若干个主成分特征;
所述因子分析模块采用降维模块,用于根据样本协方差矩阵的特征值,对样本进行降维,得到所述主成分特征;
所述降维模块中主成分特征的个数通过交叉验证方式或与设定阈值比较得出;
所述主成分特征分析模块还包括呈现模块,用于呈现主成分特征与所述被测者肺部机能检测项目之间的对应关系;
所述决策树构建模块,以信息增益为度量,构造熵值下降最快的决策树模型;
还包括决策树优化模块,其通过对所述决策树模型剪枝部分节点得到若干候选决策树模型,采用损失函数评价上述各候选决策树,选择损失函数值最小的候选决策树模型作为优化的决策树模型;在所述决策树测试模块中,采用上述优化的决策树模型进行预测;
所述损失函数为决策树模型中所有叶节点的熵之和;
所述损失函数为:
其中C(T)表示训练集的预测误差,|Tleaf|表示模型的复杂度,a是参数,称为剪枝系数,用来调节两者的权重;a较小时,选择较复杂的模型,当a=0时,未剪枝的决策树损失最小;当a较大时,选择较简单的模型,当a→∞时,单根结点的决策树损失最小;剪枝模块用于在a确定情况下,通过设定一阈值,去除损失函数之值小于阈值的中间节点;
所述决策树测试模块,用于将所述第二样本随机分为训练集和预测集,训练集用于生成学习器,在学习器的基础上,根据所述决策树模型测试预测集中的第二样本是否表现为慢性阻塞性肺疾病。