1.一种基于数据驱动方式筛选癌症早期诊断标志物的网络算法,其特征在于,包括网络构建和网络分析;
所述的网络构建包括如下步骤:
1)输入癌症不同阶段的组学数据,包括基因组学,蛋白质组学,代谢组学;
2)对数据中的任意两个特征fi,fj在每个阶段样本上构建比值特征rij;
3)根据公式(1)计算每个比值特征rij的组内标准差之和sij;
4)根据每个比值特征rij的组内标准差之和sij,计算该比值特征在癌症发生发展的第k个阶段样本上的局部质心与全局质心的差异dijk;dijk绝对值越大,表明比值特征rij在第k个阶段样本上的局部质心值与其在所有样本上的全局质心值的差异性越大,因此,越能成为癌症发展到第k个阶段的特异性信号;
5)在网络中,以单分子特征作为网络结点,衡量分子间的比值在癌症第k个阶段局部质心与其全局质心的差异dijk,如果dijk值大于等于阈值ε,则癌症第k个阶段的网络图中两个结点fi,fj以一种颜色边相连,反之,如果dijk值小于等于阈值‑ε,则网络图中两个结点fi,fj以另一种颜色边相连;
所述的网络分析包括网络图拓扑结构分析方法:为筛选癌症的前瞻预警信号,重点关注癌症早期阶段特异性网络,特异性网络中度最大的结点作为癌症的前瞻预警标志物,用于临床早期诊断;
所述的方法用于胃癌标志物的筛选;
所述的网络构建的第3)步中:根据公式(1)计算每个比值特征rij的组内标准差之和sij;
定义rij表示特征fi和特征fj的比值特征,sij为rij的组内标准差之和,其计算方式如公式(1):其中rijt表示比值特征rij在样本t上的表达值,μijk表示比值特征rij在第k个阶段样本上的均值,z表示机体癌变的阶段个数,ck表示第k个阶段样本的类标;
所述的网络构建的第4)步中:采用公式(2)计算比值特征在癌症发生发展的第k个阶段样本上的局部质心与全局质心的差异dijk:其中μij为比值特征rij在所有样本上的均值;s0为所有比值特征组内标准差之和的中位数,其能有效减少比值特征表达值量级上的差异对于数据分析的影响;当mk取值为时,使mk*sij等于分子μij‑μijk的标准误差估计值;n表示样本的个数,第k类样本数为nk;
对于比值特征rij,其不同阶段的质心差异dij符合t分布。
2.根据权利要求1所述的一种基于数据驱动方式筛选癌症早期诊断标志物的网络算法,其特征在于,所述的网络分析的网络图拓扑结构分析方法具体如下:为筛选癌症的前瞻预警信号,重点关注癌症早期阶段特异性网络;设第q个阶段为癌症的早期阶段,其特异性网络图为Gq;由于不同阶段的质心差异dij符合t分布,对于网络中任意结点fi和fj,其边权重的绝对值|w(fi,fj)|仅在第q个阶段大于阈值ε,而在癌症发生发展的其他阶段均小于ε,即结点fi和fj仅在网络图Gq中存在连边,而在癌症发生发展其他阶段的网络图中没有连边;因此,结点fi,fj及其连边作为癌症早期阶段的特异性信息;提取癌症在第q个阶段上所有的特异性信息构成该阶段的特异性网络图Gq作为癌症早期网络预警信号;
在网络图中,度最大的结点表明分子参与多条通路反应活动,处于中心枢纽位置,在机体的生理病理变化中起着重要的生物学作用;因此,特异性网络图Gq中度最大的结点作为癌症的前瞻预警标志物,用于临床早期诊断;从时间维度上动态表征癌症的发生发展过程,并系统对比、分析作为早期网络预警信号的网络图Gq在机体癌变不同阶段网络拓扑结构的差异性变化。