1.一种基于层次Trans‑CNN的多标签文本分类算法,其特征在于,包括如下步骤:S1、数据预处理;
S2、对单词进行特征提取;
S3、对句子进行特征提取;
S4、将词特征和句子特征融合;
S5、将融合后的特征通过卷积层,提取特征;
S6、将得到的卷积特征通过全连接网络,对文本进行分类。
2.根据权利要求1所述的一种基于层次Trans‑CNN的多标签文本分类算法,其特征在于,S1包括如下步骤:
S11、使用RCV1和AAPD数据集,将文本中的特殊字符去除;
S12、将每个标签种类下的文本中,每个句子的单词少于10的句子去除,句子数目少于
40条的文本去除。
3.根据权利要求1所述的一种基于层次Trans‑CNN的多标签文本分类算法,其特征在于,S2包括如下步骤:
S21、根据Transformer中的encoder构建word‑encoder神经网络;
S22、将每个标签下的文本中的单词通过word‑encoder网络,得到词向量特征。
4.根据权利要求1所述的一种基于层次Trans‑CNN的多标签文本分类算法,其特征在于,S3包括如下步骤:
S31、根据Transformer中的encoder构建sentence‑encoder神经网络;
S32、将每个标签下的文本中的句子通过sentence‑encoder网络,得到句子向量特征。
5.根据权利要求1所述的一种基于层次Trans‑CNN的多标签文本分类算法,其特征在于,S5包括如下步骤:
S51、将S4得到的融合特征,通过卷积核为1×Ds的卷积神经网络,卷积核数量为n,卷积后得到m×n的向量特征;
其中Ds为句子的嵌入维度,m为句子的个数。
6.根据权利要求1所述的一种基于层次Trans‑CNN的多标签文本分类算法,其特征在于,S6包括如下步骤:
S61、构建全连接神经网络;
S62、将S5得到的特征通过该全连接神经网络后,再使用sigmoid激活函数转换为类别概率。