1.一种基于科研文本的生物医学学科分类方法,其特征在于,具体包括以下步骤:S1、获取文本数据,对文本数据进行分词、去除停用词处理后,进行缩写词的扩展、大小写转换、词形还原操作;
S2、利用Word2vec模型中的Skip‑gram模型对预处理后的词进行训练,得到每个词对应的词向量;
S3、构建改进的Inception网络,并利用该网络对词向量进行特征提取;
S4、将从训练数据中提取的特征输入支持向量机模型中,通过预测类标与训练数据的标准类标进行比较,通过反向传播更新支持向量机模型;
S5、将待预测的文本数据输入改进的Inception网络提取特征,并将提取的特征输入经过训练的支持向量机模型,得到该待预测文本数据的类标。
2.根据权利要求1所述的一种基于科研文本的生物医学学科分类方法,其特征在于,改进的Inception网络包括四个分支,第一个分支包括卷积核为1*1的卷积层;第二分支依次包括卷积核为1*1的卷积层、卷积核为3*3的深度可分离卷积层以及卷积核为1*1的卷积层;
第三分支依次包括卷积核为1*1的卷积层、卷积核为3*3的深度可分离卷积层、卷积核为3*3的深度可分离卷积层以及卷积核为1*1的卷积层;第四分支依次包括采用多头注意力池化以及卷积核为1*1的卷积层;四个分支得到的特征图通过Filter Concatenation层将相同尺寸的图按深度链接起来。
3.根据权利要求2所述的一种基于科研文本的生物医学学科分类方法,其特征在于,深度可分离空洞卷积包括深度空洞卷积和逐点卷积,深度空洞卷积的卷积核的尺寸为3*3,空洞率为r;逐点卷积为卷积核大小为1*1的卷积运算。
4.根据权利要求2所述的一种基于科研文本的生物医学学科分类方法,其特征在于,多头注意力池化为利用多头注意力机制对输入的词向量进行特征提取具体包括和以下步骤:对输入的词向量表示进行多次不同映射,第i头对于文本表示的映射表示为:对于每一头的映射输出,进行一次注意力池化,第i头得到的注意力权重:随后将每个表示的特征值与其权重进行加权求和:使用tanh函数激活,得到每一头的输出:将每一头的输出结果进行拼接后再进行融合,表示为:(2)
其中,Wi 表示第i头的权重矩阵, 表示第i头的偏置系数;X表示样本词向量;ui表示(5)
第i头中随机初始化的参数向量;⊕表示拼接操作;y 表示对H个注意力池化输出进行拼接(6) (6)
的结果,y 表示融合的结果;W 表示权重矩阵, 表示偏置系数。
5.根据权利要求1所述的一种基于科研文本的生物医学学科分类方法,其特征在于,支持向量机模型在反向传播过程中的损失函数为改进的聚焦均分损失函数,表示为:其中,α为平衡因子,yi是标签数据,yi'是预测数据,δ是极小值,γ是聚焦权重,n为样本数量。
6.一种基于科研文本的生物医学学科分类装置,其特征在于,包括数据采集模块、数据预处理模块、词向量获取模块、特征提取模块以及分类模块,其中:数据采集模块包括历史数据获取以及待预测数据获取,历史数据用于对分类模块进行网络更新;
数据预处理模块,用于对获取的数据文本中的词,该模块包括分词单元、去除停用词单元、缩写词的扩展单元、大小写转换单元、词干提取单元及词形还原单元;
词向量获取模块,用于将预处理模块得到的词进行映射,得到每个词对应的词向量;
特征提取模块,用于从得到的词向量中提取特征;
分类模块,用于将词向量的特征输入利用历史数据进行训练的支持向量机模型得到分类结果。
7.根据权利要求1所述的一种基于科研文本的生物医学学科分类装置,其特征在于,特征提取模块为改进的Inception网络,改进的Inception网络包括四个分支,第一个分支包括卷积核为1*1的卷积层;第二分支依次包括卷积核为1*1的卷积层、卷积核为3*3的深度可分离卷积层以及卷积核为1*1的卷积层;第三分支依次包括卷积核为1*1的卷积层、卷积核为3*3的深度可分离卷积层、卷积核为3*3的深度可分离卷积层以及卷积核为1*1的卷积层;
第四分支依次包括采用多头注意力池化以及卷积核为1*1的卷积层;四个分支得到的特征图通过Filter Concatenation层将相同尺寸的图按深度链接起来。
8.根据权利要求7所述的一种基于科研文本的生物医学学科分类方法,其特征在于,深度可分空洞卷积深度可分离空洞卷积包括深度空洞卷积和逐点卷积,深度空洞卷积每一个通道只被一个卷积核卷积,卷积核的尺寸为3*3,空洞率为r;逐点卷积为卷积核大小为1*1的卷积运算。
9.根据权利要求7所述的一种基于科研文本的生物医学学科分类方法,其特征在于,多头注意力池化为利用多头注意力机制对输入的词向量进行特征提取包括以下步骤:对输入的词向量表示进行多次不同映射,第i头对于新文本表示的映射表示为:对于每一头的映射输出,进行一次注意力池化,第i头得到的注意力权重:随后将每个表示的特征值与其权重进行加权求和:使用tanh函数激活,得到每一头的输出:将每一头的输出结果进行拼接后再进行融合,表示为:(2)
其中,Wi 表示第i头的权重矩阵, 表示第i头的偏置系数;X表示样本词向量;ui表示(5)
第i头中随机初始化的参数向量;⊕表示拼接操作;y 表示对H个注意力池化输出进行拼接(6) (6) (6)
的结果,y 表示融合的结果;W 表示权重系数,b 表示偏置系数。
10.根据权利要求1所述的一种基于科研文本的生物医学学科分类装置,其特征在于,分类模块利用历史数据进行训练支持向量机模型时,通过反向传播更新支持向量机模型的过程中,损失函数表示为:
其中,α为平衡因子,y是标签数据,y'是预测数据,δ是极小值,γ是聚焦权重,n为样本数量。