1.一种基于深度学习的单细胞RNA序列基因调控推断方法,包括转录因子与基因表达数据的预处理、多头注意力机制汇集近邻节点信息、卷积层特征提取、单头注意力机制汇集近邻节点信息、推断转录因子‑基因对是否具有调控关系、训练模型和测试模型七个过程,其具体步骤如下:步骤1、在单细胞RNA序列数据集上选择500个变化最显著的基因,进行基因调控网络推断,以下将基因调控网络简称为GRN;首先,将基因与转录因子的低维向量化表示信息读出存为特征矩阵;其次,读取节点的链接信息,存储为邻接矩阵;最后进行数据增强,随机组合转录因子与基因;
步骤2、首先,将步骤1处理好的数据传入多头注意力层,分三头进行注意力机制运算;
其次,将特征矩阵进行掩码、Elu激活函数、Softmax归一化操作;最后,将三头所得结果进行堆叠,并计算平均值;
步骤3、把步骤2中得到的特征矩阵作为卷积层的输入,学习卷积核,从而更准确地提取有价值的特征;
步骤4、将步骤3中得到的特征矩阵及邻接矩阵传入单头注意力层,根据关注度汇集近邻节点的信息;此注意力机制和步骤2所述注意力机制操作一致;
步骤5、在多层感知机中实现下游分类任务,即进行GRN推断,并使用点积作为评分函数来评估转录因子‑基因对的相似性;
步骤6、首先,将生成的转录因子‑基因对数据随机划分为训练集、验证集和测试集;其次,使用交叉熵损失函数计算预测结果与真实值的差异;最后,通过梯度下降算法,更新模型参数,并保存训练好的模型;
步骤7、使用步骤6中保存好的模型对输入的RNA序列数据进行基因调控推断;用转录因子与基因的低维向量化特征曲线下的面积,以下简称AUC,和平均精确率‑召回率曲线下的面积,以下简称AUPRC,来评价模型的性能。
2.根据权利要求1所述的一种基于深度学习的单细胞RNA序列基因调控推断方法,步骤
1的实现过程如下:
首先,选择hESC、hHEP、mDC、mESC、mHSC‑E、mHSC‑GM、mHSC‑L这7种细胞类型的单细胞RNA数据集的其中一个,将数据集中转录因子与基因的低维向量化表示信息读出存为特征矩阵,每行为一个基因或转录因子,并记录矩阵大小;其次,读取转录因子与基因的节点链接信息,存储为稀疏矩阵的形式,即邻接矩阵;最后,进行数据增强,随机生成转录因子‑基因对,若它们不在邻接矩阵内,将它们之间的链接关系标注为0,否则标注为1。
3.根据权利要求1所述的一种基于深度学习的单细胞RNA序列基因调控推断方法,步骤
2的实现过程如下:
将步骤1输出的特征矩阵分为三个子空间的运算,每个子空间对应一个注意力头;对于每个注意力头,以基因i、j为例,每个节点共享一个参数化的权重矩阵 ,其中,M为基因中细胞的数量,F为预设的输出维度,其值为384;将特征矩阵送入注意力机制函数a,输出注意力系数 ,其值由公式(1)确定: (1)其中,特征矩阵为 ; 表示基因i的特征向量, 表示基因j的特征向量, 为权重矩阵的转置,a为注意力机制函数;
然后用邻接矩阵来掩码注意力机制作用后的特征矩阵,并用Softmax函数对其进行归一化,得到基因i和基因j之间的最终系数 ,其值由公式(2)确定: (2)
其中,Softmax为归一化函数,可使数据中每一个元素的值介于0至1之间; 表示在网络结构中基因i的近邻节点;exp表示以自然常数e为底的指数函数;Elu是一个非线性激活函数;注意力系数 可以看作是基因i和基因j之间的调节强度;
最后,通过公式(3)平均多头注意力机制:
(3)
其中,K表示注意力的头数,本发明中设置为3; 是第k个归一化的注意力系数; 是线性变换的转置权重矩阵;经过此注意力层,将输出维度设为128×头数,即384。
4.根据权利要求1所述的一种基于深度学习的单细胞RNA序列基因调控推断方法,步骤
3的实现过程如下:
将步骤2输出的汇聚了近邻节点信息的特征矩阵传入卷积层,卷积核的大小与输入及输出的维度相关,设卷积核的大小为L×F,由于基因数目不变,即特征矩阵经卷积后行的大小不变,故L为1;F的值由公式(4)确定,其中,W表示输入维度,N表示输出维度,S表示步长,本发明中设置为1,P表示填充,本发明中设置为0;
(4)
经过此卷积层,将输出维度设为64。
5.根据权利要求1所述的一种基于深度学习的单细胞RNA序列基因调控推断方法,步骤
4的实现过程如下:
将步骤3输出的提取特征后的特征矩阵传入单头注意力层,通过注意力机制,根据关注度汇集近邻节点的信息,此层的注意力机制函数与步骤1的注意力机制函数一致;经过此注意力层,输出维度不变。
6.根据权利要求1所述的一种基于深度学习的单细胞RNA序列基因调控推断方法,步骤
5的实现过程如下:
将步骤4中输出的特征矩阵分别输入到结构相同的两个通道实现下游分类任务,即进行GRN推断,并使用点积作为评分函数来评估转录因子‑基因对的相似性,其值由公式(5)、(6)和(7)确定;两个通道分别为转录因子通道和基因通道,均为两层全连接层构成的多层感知机;
(5)
(6)
(7)
其中, 和 分别是基因i和基因j的低维表示; 是相应神经网络的转置线性权重; 是对应神经网络的偏差;score表示基因i与基因j的相似性得分,其值越大,表示基因i与基因j的相关程度越高;经过多层感知机的第一层全连接层,输出维度设为32;经过第二层全连接层,输出维度设为16。
7.根据权利要求1所述的一种基于深度学习的单细胞RNA序列基因调控推断方法,步骤
6的实现过程如下:
将生成的转录因子‑基因对数据按60%、20%、20%的比例随机划分为训练集、验证集和测试集;使用交叉熵损失函数计算预测结果与真实值的差异;进一步,计算损失函数的梯度,利用梯度进行模型参数的优化,并保存训练好的模型。
8.根据权利要求1所述的一种基于深度学习的单细胞RNA序列基因调控推断方法,步骤
7的实现过程如下:
使用步骤6中保存好的模型对输入的RNA序列数据进行GRN推断;用AUC和AUPRC来评价模型的性能。