1.一种基于KS模型的糖尿病预测算法,其特征在于,具体按照以下步骤实施:步骤1、从UCI机器学习存储库中获得的皮马印度糖尿病数据集;
步骤2、对获取的皮马印度糖尿病数据集进行清洗,获得规范化数据集;具体过程为:删除每个属性数据以外的其他内容,对数据集中存在的缺失值进行填补,对数据集中存在的缺失值进行填补的具体过程为:每个属性数据的平均值替换缺失数据;
步骤3、利用四分位数分析法对规范化数据集中存在的极值、离群值进行检测并进行删除;
步骤4、采用Person相关系数分析法挑选与糖尿病预测相关性大的四个属性;具体过程为:取每个属性中数据Xi,
计算Person相关系数,公式为:
其中, 表示属性中数据的标准分数, 表示属性中数据的平均值, 表示属性中数据的标准差;
将每个属性得到的Person相关系数按照大小进行排序,选取数值较大四个Person相关系数,根据Person相关系数得到四个属性;
步骤5、分别对四个属性中对应的数据进行标准化处理;
步骤6、将标准化处理后的数据集输入到KMEANS++算法中进行无监督学习,得到聚类正确的数据;
步骤7、将数据输入到SVM中进行预测,评估其性能。
2.根据权利要求1所述一种基于KS模型的糖尿病预测算法,其特征在于,所述皮马印度糖尿病数据集九个属性值,其中八个与糖尿病诊断相关属性和一个标签属性,所述标签属性中用‘0’表示健康人群,用‘1’表示患者人群。
3.根据权利要求1所述一种基于KS模型的糖尿病预测算法,其特征在于,步骤5具体过程为:分别对四个属性中数据分别进行标准化处理,公式为:其中,X表示属性中数据, 表示属性中数据的平均值, 属性中数据的标准差, 表示标准化处理后得到的数据。