买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种用于精神分裂症病历图像特征选择的稀疏双向Spark方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种用于精神分裂症病历图像特征选择的稀疏双向Spark方法

￥26000

专利号： 2023103864245

申请人：南通大学

专利类型：发明专利

专利状态：已下证

更新日期：2025-11-13

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种用于精神分裂症病历图像特征选择的稀疏双向Spark方法，其特征在于，包括以下步骤：

S1：在主节点Master上，读取大规模静息态功能磁共振成像的精神分裂症病历图像数据集，将分布不平衡的RS‑fMRI数据存储到数据库的分布式文件中，并进行数据预处理和划分操作，RS‑fMRI图像经过数据预处理后，使用解剖自动标记模板将其划分为若干个大脑区域，在大脑网络中，每个大脑区域代表一个独立的节点，分别提取每个节点的平均体素时间序列，将每个区域相似度较高的聚类到一起，计算每个区域的聚类系数，将系数转为一组一维特征向量，用这些系数来表示大脑网络的拓扑结构，建立脑区之间的脑功能连接网络，定义节点时间序列矩阵；

将精神分裂症病历图像转换为一个四元组决策信息系统S＝(U,C∪D,V,f)，其中U＝{x1,x2,……,xn}表示数据集中精神分裂症病历图像的患者对象集合，m表示精神分裂症病历的患者个数，xm表示第m个样本；C＝{a1,a2,…,an}表示精神分裂症病理属性的非空有限集合，n表示精神分裂症病理属性的个数，an表示第n个属性；D＝{d1,d2，……,dN}表示精神分裂症病历决策类别的非空有限集合，N表示精神分裂症病历决策类别的个数,dN表示第N个决策类别，且 V＝∪a∈C∪DVa，Va是数据集属性a下数据对象所有可能的数据取值，f:U×C∪D→V表示一个信息函数，它为每个精神分裂症病历图像赋予一个信息值，即x∈U，f(x,a)∈Va；

S2：在Spark框架中，建立主控节点Master和子节点Slavei之间的通信，读取精神分裂症病历的数据集，将数据集S合划分成M个精神分裂症数据子集{S1,S2,……,SM}，其中SM表示第M个数据子集，且满足数据子集之和等于数据集，满足任意数据子集的交集为空，并将其广播到相应的子节点上，在子节点Slaveri上，使用留一法列出病历图像样本xi，xi表示第i个精神分裂症病历图像样本，通过Spark并行化的稀疏约束模型计算图像样本xi和其他样本(x1,x2,……,xi‑1,xi+1,……,xj)之间的相关性，xj表示第j个数据集，其中j＜n，当行内尽可能多的元素为0时，约束才可能取得最小，即使得矩阵出现尽可能多的全零行，得到权重矩阵W，元素大小反应样本紧密程度，通过非零元素个数得到样本最优的K个邻居，获得K值，构造基于Spark并行化的稀疏K近邻粒度模型，利用所有样本最优的K个邻居，生成关系矩阵，表示每个样本之间的距离关系；

S3：在子节点Slavei中引入双向互邻策略，通过病历图像样本x和样本y的互邻信息重叠区域来判断，当样本x和样本y都属于对方的最近邻粒度，则样本y被选为样本x的最近邻,得到基于稀疏双向的Spark粗糙集模型，令 B表示精神分裂症病理特征非空有限集合的子集，则稀疏双向最近邻定义如下：SMKB(xi)＝{KB(xi)|xi∈KB(xj)∩xj∈KB(xi)} (1)

其中，x关于特征子集B的最优邻居为 xi表示精神分裂症病历图像

数据子集中第i个样本，xj表示精神分裂症病历图像数据子集中第j个样本，KB(xj)表示样本xj在特征子集B下的K个邻居，KB(xi)表示样本xi在特征子集B下的K个邻居；

所述步骤S3的具体步骤如下：

步骤S3.1：在子节点Slaveri上，使用留一法列出样本xi，增加一个L1正则化，通过Spark并行化的稀疏约束模型计算图像样本xi和其他样本(x1,x2,……,xi‑1,xi+1,……,xj)之间的相关性，稀疏约束函数如下；

其中是Frobenius范数的平方，F是范数的选取方式，T是矩阵的转置变换，||·||1T

是1范数，rho是1范数的调优参数，取值在0到1之间，W为数据集的重构权重矩阵，X表示数据集的转置矩阵；

步骤S3.2：在稀疏约束函数中利用1范数生成行稀疏性，若行内的0元素越多，则约束越小，当行内所有元素都为0时，约束能够取得最小值，即使得矩阵出现尽可能多的全零行，通过目标函数不断调节参数，获得重构权重矩阵W，通过矩阵的对应列获取样本xi的重构向量P，利用重构向量P中元素的大小反映样本紧密程度，其中非零元素的个数即为该图像样本的最优K值，构造基于Spark并行化的稀疏K近邻粒度模型；

步骤S3.3：在子节点Slaveri上，在基于Spark并行化的稀疏K近邻粒度模型中加入互信息策略，通过样本x和样本y的互邻信息的重叠区域来判断，当样本x和样本y都属于对方的近邻粒度，则样本y被选为样本x的最近邻,得到基于稀疏双向K近邻的Spark模型，对于样本x和样本y满足x∈Kx(y)∩y∈Ky(x)(3)则样本y包含在样本x的稀疏双向的Spark并行特征选择模型中，选择模型中符合该策略的样本，构造基于稀疏双向的Spark粗糙集模型，Kx(y)表示样本y的K个邻居，Ky(x)表示样本x的K个邻居；

步骤S3.4：根据稀疏约束函数得到的最优K值和双向互邻策略，设计了构造基于稀疏双向的Spark粗糙集模型，给定信息系统S, 特征子集B中xi的稀疏双向邻居SMKB(xi)，其上近似以及下近似分别定义为

步骤S3.5：计算D关于B的正域、负域和边界域分别定义为

S4：将启发式特征选择方法和动态优化策略结合，在子节点Slavei上，基于粒度的模型采用条件熵来评估模型的不确定性，在属性C‑B子集中寻找具有最大属性重要度SIG(ai,B,D)对应的属性，其中ai表示第i个属性，将其加入到属性集B中，若属性ai冗余则继续计算下一个具有最大属性重要度的属性，比较依赖性γB(D)和γC(D)，将属性集B中的冗余属性删除，γB(D)表示属性子集B对于决策类D的依赖度，γC(D)表示条件属性C对于决策类D的依赖度，利用依赖关系来评估近似的区域，得到各个子节点计算出的病理属性约简子集集合{R1,R2,……,RM},其中M表示子节点的个数，RM表示第M个子节点求出的属性子集，根据基于稀疏双向的Spark并行模型对数据进行特征选择，由此选取预测精神分裂症的重要脑区域；

所述步骤S4的具体步骤如下：

步骤S4.1：将启发式特征选择方法和动态优化策略结合，基于粒度的模型采用条件熵来评估模型的不确定性,在所述子节点Slavei中，初始化属性集B，设计算属性重要度SIG(ai,B,D)，并选择最大的属性重要度和对应的特征ai，属性集B关于决策属性D的条件邻域熵计算公式如下所示：属性重要度的计算公式如下所示：

SIG(a,B,D)＝CEB(D)‑CEB∪{a}(D) (10)

其中CEB∪{a}(D)表示属性集B加入属性a后关于决策属性D的条件邻域熵，如果SIG(ai,B,D)>0，则将对应的特征ai加入到选定的属性集B中，B＝B∪{ai}；

步骤S4.2：在所述子节点Slavei中，根据限定约简的定义，计算更新后特征子集B对决策特征D的依赖度γB(D)，判断如果计算结果满足γB(D)≥γC(D)，则将γB(D)赋值给γC(D)，继续计算下一个特征ai，特征ai相对于特征子集B的依赖性可以描述为:γB(D)＝|MKPosB(D)|/|U| (11)

步骤S4.3：在所述子节点Slavei中，判断如果满足γB(D)≤γC(D)且SIG(ai,B,D)＜0，则说明特征ai冗余，需将属性集B中的特征ai去除，B＝B‑{ai}，直到将所有的属性都比较一遍；

步骤S4.4：若属性集B中的特征a不止一个且γB(D)≥γC(D)，则需验证其中是否有特征冗余，令计算γB‑e(D)，如果γB‑e(D)≥γC(D)，则将属性集B中的特征e去除；构建候选属性集合，并将其属性依次添加到属性约简集合Red中，最后，在主节点Master将子节点Slavei所得的属性约简子集取交集得到属性约简集为R，特征选择算法进行单元化，获得所选脑区域。