利索能及
我要发布
收藏
专利号: 2021109153784
申请人: 燕山大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-07-01
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于层次Trans‑CNN的多标签文本分类算法,其特征在于,包括如下步骤:S1、数据预处理;

S2、对单词进行特征提取;

S3、对句子进行特征提取;

S4、将词特征和句子特征融合;

S5、将融合后的特征通过卷积层,提取特征;

S6、将得到的卷积特征通过全连接网络,对文本进行分类。

2.根据权利要求1所述的一种基于层次Trans‑CNN的多标签文本分类算法,其特征在于,S1包括如下步骤:

S11、使用RCV1和AAPD数据集,将文本中的特殊字符去除;

S12、将每个标签种类下的文本中,每个句子的单词少于10的句子去除,句子数目少于

40条的文本去除。

3.根据权利要求1所述的一种基于层次Trans‑CNN的多标签文本分类算法,其特征在于,S2包括如下步骤:

S21、根据Transformer中的encoder构建word‑encoder神经网络;

S22、将每个标签下的文本中的单词通过word‑encoder网络,得到词向量特征。

4.根据权利要求1所述的一种基于层次Trans‑CNN的多标签文本分类算法,其特征在于,S3包括如下步骤:

S31、根据Transformer中的encoder构建sentence‑encoder神经网络;

S32、将每个标签下的文本中的句子通过sentence‑encoder网络,得到句子向量特征。

5.根据权利要求1所述的一种基于层次Trans‑CNN的多标签文本分类算法,其特征在于,S5包括如下步骤:

S51、将S4得到的融合特征,通过卷积核为1×Ds的卷积神经网络,卷积核数量为n,卷积后得到m×n的向量特征;

其中Ds为句子的嵌入维度,m为句子的个数。

6.根据权利要求1所述的一种基于层次Trans‑CNN的多标签文本分类算法,其特征在于,S6包括如下步骤:

S61、构建全连接神经网络;

S62、将S5得到的特征通过该全连接神经网络后,再使用sigmoid激活函数转换为类别概率。