1.一种基于多模态的T细胞受体序列分类方法,其特征在于,使用了一种新型的编码方式将T细胞受体序列的原子空间结构与序列特征进行结合,并提出相应的多模态数据预测模型,将T细胞受体的空间结构特征与序列特征放在同一模型下进行训练,包含T细胞受体空间结构预处理、T细胞受体序列预处理、空间特征提取模块预训练、空间特征提取模块与序列特征提取模块联合训练四个步骤,其具体步骤如下:步骤 1、将T细胞受体序列的原子序列中的每一个原子的独热编码与它的三维空间坐标相结合得到该原子的坐标热度编码,将所有原子的坐标热度编码拼接在一起得到T细胞受体序列的坐标热度编码矩阵;
步骤2、每一条T细胞受体序列的首端都为半胱氨酸,尾端都为苯丙氨酸,将每一条T细胞受体序列首端的半胱氨酸和尾端的苯丙氨酸剪切掉,以提高模型对于T细胞受体序列的理解能力,使用pytorch深度学习框架的nn.Embedding函数为所有种类的氨基酸设置一个词向量,并额外设置两个无意义的词向量用于填充, 将T细胞受体序列中的氨基酸替换为对应的词向量,使用第一个无意义的词向量在受体序列的首端填充,使用第二个无意义的词向量将长度为12至16的受体序列填充到最大长度17,将每一个氨基酸都替换为其对应的词向量后,就得到了受体序列的词向量矩阵;步骤3、在构建空间特征提取模块时,使用pytorch深度学习框架的nn.Conv2d函数构建第一个卷积神经网络,使用nn.Conv1d函数构建第二、第三个卷积神经网络,这三个卷积神经网络使用相同的卷积核,其中第三个卷积的输入为第一个和第二个卷积神经网络的输出,以此来构建残差结构,使用nn.Linear构建两层的全连接层,输入为第三个卷积神经网络的输出,全连接层的输出维度为T细胞受体序列的类别数,以步骤1产生的坐标热度编码矩阵作为空间特征提取模块的输入,以坐标热度编码矩阵所对应的T细胞受体序列的类型标签作为训练的真实值进行有监督的预训练,预训练结束后保存空间结构特征提取模块;
步骤4、在构建序列特征提取模块时,使用pytorch深度学习框架的nn.Conv2d函数构建六个卷积核大小不同的卷积神经网络,这六个卷积神经网络采用并列结构,使用nn.Linear构建两层的全连接层,输入为六个卷积神经网络的输出,使用nn.Linear构建一层的全连接层作为联合训练模块,联合训练模块的输入为空间特征提取模块和序列特征提取模块的输出,联合训练模块的输出为分类结果,构建完成序列特征提取模块、联合训练模块后,加载步骤3保存的空间特征提取模块,将三者组成完整的模型,将步骤1产生的坐标热度编码矩阵作为空间特征提取模块的输入,将步骤2的词向量矩阵作为序列特征提取模块的输入,并以对应的T细胞受体序列的类型标签作为训练的真实值进行训练。
2.根据权利要求1所述的一种基于多模态的T细胞受体序列分类方法,其特征在于,将原子序列中的每一个原子的独热编码与它的三维空间坐标相结合得到该原子的坐标热度编码,将所有原子的坐标热度编码拼接在一起得到坐标热度编码矩阵,T细胞受体空间结构预处理的实现过程如下:将T细胞受体序列转化为对应的原子序列,并为每一种原子设置一个独热编码,将原子序列中的每一位原子的三维空间坐标中每个维度的值替换其独热编码中的1,便得到了其坐标热度编码,将每一位原子的坐标热度编码拼接在一起得到坐标热度编码矩阵。