利索能及
我要发布
收藏
专利号: 2023103864245
申请人: 南通大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-11-13
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种用于精神分裂症病历图像特征选择的稀疏双向Spark方法,其特征在于,包括以下步骤:

S1:在主节点Master上,读取大规模静息态功能磁共振成像的精神分裂症病历图像数据集,将分布不平衡的RS‑fMRI数据存储到数据库的分布式文件中,并进行数据预处理和划分操作,RS‑fMRI图像经过数据预处理后,使用解剖自动标记模板将其划分为若干个大脑区域,在大脑网络中,每个大脑区域代表一个独立的节点,分别提取每个节点的平均体素时间序列,将每个区域相似度较高的聚类到一起,计算每个区域的聚类系数,将系数转为一组一维特征向量,用这些系数来表示大脑网络的拓扑结构,建立脑区之间的脑功能连接网络,定义节点时间序列矩阵;

将精神分裂症病历图像转换为一个四元组决策信息系统S=(U,C∪D,V,f),其中U={x1,x2,……,xn}表示数据集中精神分裂症病历图像的患者对象集合,m表示精神分裂症病历的患者个数,xm表示第m个样本;C={a1,a2,…,an}表示精神分裂症病理属性的非空有限集合,n表示精神分裂症病理属性的个数,an表示第n个属性;D={d1,d2,……,dN}表示精神分裂症病历决策类别的非空有限集合,N表示精神分裂症病历决策类别的个数,dN表示第N个决策类别,且 V=∪a∈C∪DVa,Va是数据集属性a下数据对象所有可能的数据取值,f:U×C∪D→V表示一个信息函数,它为每个精神分裂症病历图像赋予一个信息值,即x∈U,f(x,a)∈Va;

S2:在Spark框架中,建立主控节点Master和子节点Slavei之间的通信,读取精神分裂症病历的数据集,将数据集S合划分成M个精神分裂症数据子集{S1,S2,……,SM},其中SM表示第M个数据子集,且满足数据子集之和等于数据集,满足任意数据子集的交集为空,并将其广播到相应的子节点上,在子节点Slaveri上,使用留一法列出病历图像样本xi,xi表示第i个精神分裂症病历图像样本,通过Spark并行化的稀疏约束模型计算图像样本xi和其他样本(x1,x2,……,xi‑1,xi+1,……,xj)之间的相关性,xj表示第j个数据集,其中j<n,当行内尽可能多的元素为0时,约束才可能取得最小,即使得矩阵出现尽可能多的全零行,得到权重矩阵W,元素大小反应样本紧密程度,通过非零元素个数得到样本最优的K个邻居,获得K值,构造基于Spark并行化的稀疏K近邻粒度模型,利用所有样本最优的K个邻居,生成关系矩阵,表示每个样本之间的距离关系;

S3:在子节点Slavei中引入双向互邻策略,通过病历图像样本x和样本y的互邻信息重叠区域来判断,当样本x和样本y都属于对方的最近邻粒度,则样本y被选为样本x的最近邻,得到基于稀疏双向的Spark粗糙集模型,令 B表示精神分裂症病理特征非空有限集合的子集,则稀疏双向最近邻定义如下:SMKB(xi)={KB(xi)|xi∈KB(xj)∩xj∈KB(xi)}    (1)

其中,x关于特征子集B的最优邻居为 xi表示精神分裂症病历图像

数据子集中第i个样本,xj表示精神分裂症病历图像数据子集中第j个样本,KB(xj)表示样本xj在特征子集B下的K个邻居,KB(xi)表示样本xi在特征子集B下的K个邻居;

所述步骤S3的具体步骤如下:

步骤S3.1:在子节点Slaveri上,使用留一法列出样本xi,增加一个L1正则化,通过Spark并行化的稀疏约束模型计算图像样本xi和其他样本(x1,x2,……,xi‑1,xi+1,……,xj)之间的相关性,稀疏约束函数如下;

其中 是Frobenius范数的平方,F是范数的选取方式,T是矩阵的转置变换,||·||1T

是1范数,rho是1范数的调优参数,取值在0到1之间,W为数据集的重构权重矩阵,X表示数据集的转置矩阵;

步骤S3.2:在稀疏约束函数中利用1范数生成行稀疏性,若行内的0元素越多,则约束越小,当行内所有元素都为0时,约束能够取得最小值,即使得矩阵出现尽可能多的全零行,通过目标函数不断调节参数,获得重构权重矩阵W,通过矩阵的对应列获取样本xi的重构向量P,利用重构向量P中元素的大小反映样本紧密程度,其中非零元素的个数即为该图像样本的最优K值,构造基于Spark并行化的稀疏K近邻粒度模型;

步骤S3.3:在子节点Slaveri上,在基于Spark并行化的稀疏K近邻粒度模型中加入互信息策略,通过样本x和样本y的互邻信息的重叠区域来判断,当样本x和样本y都属于对方的近邻粒度,则样本y被选为样本x的最近邻,得到基于稀疏双向K近邻的Spark模型,对于样本x和样本y满足x∈Kx(y)∩y∈Ky(x)(3)则样本y包含在样本x的稀疏双向的Spark并行特征选择模型中,选择模型中符合该策略的样本,构造基于稀疏双向的Spark粗糙集模型,Kx(y)表示样本y的K个邻居,Ky(x)表示样本x的K个邻居;

步骤S3.4:根据稀疏约束函数得到的最优K值和双向互邻策略,设计了构造基于稀疏双向的Spark粗糙集模型,给定信息系统S, 特征子集B中xi的稀疏双向邻居SMKB(xi),其上近似以及下近似分别定义为

步骤S3.5:计算D关于B的正域、负域和边界域分别定义为

S4:将启发式特征选择方法和动态优化策略结合,在子节点Slavei上,基于粒度的模型采用条件熵来评估模型的不确定性,在属性C‑B子集中寻找具有最大属性重要度SIG(ai,B,D)对应的属性,其中ai表示第i个属性,将其加入到属性集B中,若属性ai冗余则继续计算下一个具有最大属性重要度的属性,比较依赖性γB(D)和γC(D),将属性集B中的冗余属性删除,γB(D)表示属性子集B对于决策类D的依赖度,γC(D)表示条件属性C对于决策类D的依赖度,利用依赖关系来评估近似的区域,得到各个子节点计算出的病理属性约简子集集合{R1,R2,……,RM},其中M表示子节点的个数,RM表示第M个子节点求出的属性子集,根据基于稀疏双向的Spark并行模型对数据进行特征选择,由此选取预测精神分裂症的重要脑区域;

所述步骤S4的具体步骤如下:

步骤S4.1:将启发式特征选择方法和动态优化策略结合,基于粒度的模型采用条件熵来评估模型的不确定性,在所述子节点Slavei中,初始化属性集B,设 计算属性重要度SIG(ai,B,D),并选择最大的属性重要度和对应的特征ai,属性集B关于决策属性D的条件邻域熵计算公式如下所示:属性重要度的计算公式如下所示:

SIG(a,B,D)=CEB(D)‑CEB∪{a}(D)    (10)

其中CEB∪{a}(D)表示属性集B加入属性a后关于决策属性D的条件邻域熵,如果SIG(ai,B,D)>0,则将对应的特征ai加入到选定的属性集B中,B=B∪{ai};

步骤S4.2:在所述子节点Slavei中,根据限定约简的定义,计算更新后特征子集B对决策特征D的依赖度γB(D),判断如果计算结果满足γB(D)≥γC(D),则将γB(D)赋值给γC(D),继续计算下一个特征ai,特征ai相对于特征子集B的依赖性可以描述为:γB(D)=|MKPosB(D)|/|U|    (11)

步骤S4.3:在所述子节点Slavei中,判断如果满足γB(D)≤γC(D)且SIG(ai,B,D)<0,则说明特征ai冗余,需将属性集B中的特征ai去除,B=B‑{ai},直到将所有的属性都比较一遍;

步骤S4.4:若属性集B中的特征a不止一个且γB(D)≥γC(D),则需验证其中是否有特征冗余,令 计算γB‑e(D),如果γB‑e(D)≥γC(D),则将属性集B中的特征e去除;构建候选属性集合,并将其属性依次添加到属性约简集合Red中,最后,在主节点Master将子节点Slavei所得的属性约简子集取交集得到属性约简集为R,特征选择算法进行单元化,获得所选脑区域。