1.一种基于大数据与机器学习的诊断乳腺癌病情的方法,其特征在于,包括如下步骤:S1:针对乳腺癌拍片的图像的不完整性,图像数据在导入大数据平台之前需进行图像数据预处理;
S2:使用密码登陆到Hadoop分布式系统,通过人为把预处理好的大量乳腺癌检查中的X光和超声图像数据分类存储在Hadoop平台上,使用Hadoop大数据平台对图像信息进行处理分析,选取诊断为恶性的图像数据作为机器学习训练数据,数据平台数据采用加密传输,保证数据的安全性的同时不影响图像数据的使用;
S3:导入Hadoop大数据平台的二维图像信息,通过分布式计算机运算进行大量数据的卷积神经网络训练,任意选取滤波器进行卷积训练,在此基础上,通过修改滤波器上的权重使它能识别某种特征,构建具有识别图像某一特征的高阶卷积神经元;
S4:在图像经过多个卷积层后,神经元被编码成完全相关的空间特征,这些特征经过全连接神经网络学习,通过卷积神经网络的神经元反馈学习,训练出一个能分类图像的某一特征的模型,最终得到一个诊断结果模型,实现对乳腺癌病情的分类(良性或恶性)。
2.根据权利要求1所述的一种基于大数据与机器学习的诊断乳腺癌病情的方法,其特征在于,在S1中,图像数据预处理的具体步骤如下:A1、将图像数据分成三部分数据集,75%用于训练数据集,12.5%用于验证数据集,剩下的12.5%作为测试数据集;
A2、把乳腺癌的图像采用3*3的中值滤波器来移除图像中的斑点噪音,将每个图像上的像素值标准化,使出现零均值;
A3、将每张图片旋转某一角度,重复n次,控制n的次数,确保整个病变区位于图像的核心,完成图像数据的初步分类。
3.根据权利要求1所述的一种基于大数据与机器学习的诊断乳腺癌病情的方法,其特征在于,在S2中,所述图像信息进行处理分析是对乳腺癌检查中的X光和超声图像数据进行提取、选择,使用卷积神经网络算法。
4.根据权利要求1所述的一种基于大数据与机器学习的诊断乳腺癌病情的方法,其特征在于,在S3中,得到一个高阶卷积神经元的具体步骤如下:B1、特征选择,特征选择区域选择图像中出现病变的区域,特征选取与患者的乳房大小、图像拍摄的角度等因素有关,需要计算出特征选择的图像的区域;
B2、特征提取,选择滤波器对图像信息进行特征提取,特征的提取与患者的患病程度有关,计算出能表示图像特征区域特征的滤波器的大小,针对不同的特征采用不同的权值表示特征。
5.根据权利要求1所述的一种基于大数据与机器学习的诊断乳腺癌病情的方法,其特征在于,在S4中,所述神经元反馈学习是由图像的特征选择和特征提取的卷积形成的神经元构成的卷积神经网络学习,它能通过全网络反馈更新权重,有卷积神经网络反向传播学习的帮助,神经网络的内部权重会根据每次迭代获得的错误信息自动更新,得到图像分类模型。
6.根据权利要求5所述的一种基于大数据与机器学习的诊断乳腺癌病情的方法,其特征在于,所述卷积神经网络学习的具体步骤如下:C1、将输入的图像通过滤波器检测后卷积,经过这第一节卷积层后,它就能识别某一简单特征,例如曲线;
C2、把能识别的某一简单的特征的激活图作为第二个卷积层的输入数据;
C3、第二个卷积层卷积输出激活图作为下一个卷积层的输入数据,依次卷积到N层,从N层卷积层上得到一个高阶的识别图像某一复杂特征的空间特征。
7.根据权利要求5所述的一种基于大数据与机器学习的诊断乳腺癌病情的方法,其特征在于,所述卷积神经网络反向传播学习的具体步骤如下:D1、前向传播:第一个训练中,所有的权重或过滤器的值被随机初始化,是一个完全不能优先考虑任何数字的输出;
D2、损失计算:分析需要识别的图像的某一特征,用数字贴上标签,计算标签数字与随机生成权重数字的差异值;
式中:total表示总量,target表示目标量,output表示输出量。
D3、反向传播:检测出哪个权重损失最大并且寻找方法来调整它们使损失降低;
D4、权重更新:权重优化,更改数字特征。
式中:w表示权重,wi表示初始权重,η表示学习率。
8.根据权利要求1所述的一种基于大数据与机器学习的诊断乳腺癌病情的方法,其特征在于,在S1中的Hadoop分布式系统,数据以弹性分布式数据集对象的形式存储在Hadoop分布式系统中。