1.一种基于双通道语义增强和卷积神经网络的文本分类方法,其特征在于,包括以下步骤:S1,先对文本进行预处理,将文本划分为文本单元;然后进行词向量嵌入,将词或词组转换为向量表示;由此,得到文本矩阵X;
S2,将生成的文本矩阵X分别采用Conv1D和AtrousConv1D进行双通道卷积特征提取,得到原始语义信息C和全局文本信息A;
采用Conv1D进行特征提取,得到原始语义信息C包括以下步骤:对于文本S的第i个词表示向量为xi,文本嵌入向量X在卷积核大小为z的一维卷积核w下,通过式(2)对X进行滑动卷积生成特征hi:[xi:xi+z‑1]=[xi,xi+1,...,xi+z‑1]2)hi=σ(w1·[xi:xi+z‑1]+b1)3)其中[xi:xi+z‑1]表示卷积核的滑窗范围;
xi表示某个语句第i个单词的词向量;
xi+z‑1表示某个语句第i+z‑1个单词的词向量;
w1表示特征权重;
b1表示偏置;
hi表示卷积核第i次经过滑动卷积后的卷积特征信息;
σ为非线性激活函数,具体为LeakyReLU;
将卷积后的特征hi映射表示为新的卷积特征H:H=[h1,h2,...,hl‑z+1]5)由此,得到提取后的卷积特征M:M=[H1,H2,...,Hm]6)其中H1表示第1个卷积信道生成的卷积特征;
Hm表示第m个卷积信道生成的卷积特征;
m为卷积信道的总个数;
对卷积特征图M采用平均池化操作来获取一维卷积通道的原始语义信息,卷积特征图M的池化输出C表示为:C=avgpool(M)7)
其中,C表示原始语义信息;
avgpool()表示平均池化;
采用AtrousConv1D进行特征提取,得到全局文本信息A:A=maxpool{LeakyReLU(Z)}9)其中,LeakyReLU()表示非线性激活函数;
maxpool()表示最大池化操作;
Z=AtrConv1D(X)
其中,Z=[z1,z2,...,zK],在长度为K的滤波器wk扩张卷积后生成全域输出zi:其中x[i+p·k]表示AtrousConv1D扩张后的词向量;
p表示对输入向量x[i+p·k]进行扩张卷积的步幅,p∈P,P={p1,p2,p3},p1、p2、p3表示三个语义感受野扩张率;
S3,对生成的原始语义信息C和全局文本信息A采用加权平均注意力生成注意力得分Cscore和Ascore,同时对文本矩阵X进行语义增强得到yk,最后将高维的卷积特征图拼接,然后将拼接后的特征图通过Linear全连接层和Sofrmax层映射为标签的概率分布。
2.根据权利要求1所述的一种基于双通道语义增强和卷积神经网络的文本分类方法,其特征在于,步骤S1的文本为中文文本或英文文本,此时,词向量嵌入为:当为中文文本时,对每个汉字采用中文语料库的预训练词向量进行文本表示;
当为英文文本时,对每个单词采用英文语料库的预训练词向量进行文本表示。
3.根据权利要求1所述的一种基于双通道语义增强和卷积神经网络的文本分类方法,其特征在于,所述进行词向量嵌入,将文本单元转换为向量表示;包括:文本S经过词汇表V的对应索引构成了文本嵌入向量X:X=index(S)*V 1)其中,index(S)表示文本通过索引预训练语料库生成X的过程;
V表示词汇表。
4.根据权利要求1所述的一种基于双通道语义增强和卷积神经网络的文本分类方法,其特征在于,卷积核大小z≤4。
5.根据权利要求4所述的一种基于双通道语义增强和卷积神经网络的文本分类方法,其特征在于,卷积核大小设置为z={2,3,4}。
6.根据权利要求1所述的一种基于双通道语义增强和卷积神经网络的文本分类方法,其特征在于,步骤S3包括以下步骤:S3‑1,对生成的原始语义信息C和全局文本信息A采用加权平均注意力生成注意力得分Cscore和Ascore:其中Cscore和Ascore分别为Conv1D和AtrousConv1D卷积获取的加权注意力得分;
T T
softmax(vcuc)i为vc与uc的矩阵乘积概率映射;
T T
softmax(vaua)i为va与ua的矩阵乘积概率映射;
T
为转置符号;
Ci为C的第i个卷积特征图;
Ai为A的第i个卷积特征图;
l为句子长度;
z为卷积核大小;
a a
vc和va分别为特征向量H和H,H为文本矩阵X经过Conv1D卷积后的映射特征;H 为文本矩阵X经过AtrousConv1D卷积后的映射特征;
uc和ua则为线性变化后的高维特征得分,如式(12)所示:a
其中M、M分别为经过一维卷积通道的卷积特征和经过AtrousConv1D卷积通道的卷积特征;
tanh为激活函数计算注意力的得分;
w1、w2分别表示Conv1D、AtrousConv1D卷积通道的特征权重;
b1、b2分别表示Conv1D、AtrousConv1D卷积通道的偏置;
S3‑2,采用语义增强模块,对文本矩阵X进行语义增强后激活生成的yk,表示为:yk=σ1(conv(X;wk,bk))13)其中σ1表示ReLU激活函数;
yk表示增强特征;
conv()表示卷积操作;
wk表示卷积通道的特征权重;
bk表示卷积通道的偏置;
c a c a
S3‑3,将yk经过maxpool1D后进行划分,得到增强特征yk 和yk;然后将yk和yk与双通道卷积提取的加权注意力特征进行拼接:其中C和A分别为Conv1D、AtrousConv1D卷积得到的原始语义信息和全局文本信息;
Cscore和Ascore分别为Conv1D、AtrousConv1D卷积获取的加权注意力得分;
c
yk表示与高维卷特征图C·Cscore拼接生成的语义增强特征;
a
yk表示与高维卷特征图A·Ascore拼接生成的语义增强特征;
表示拼接操作;
S3‑4,将拼接后的特征图Hcla通过Linear全连接层和Sofrmax层映射为标签的概率分布。
7.根据权利要求1所述的一种基于双通道语义增强和卷积神经网络的文本分类方法,其特征在于,对预测的概率分布和真实的标签采用交叉熵损失函数来衡量差异,交叉熵损失函数表示为;
其中 表示用于分类的损失;
n为测试样本数;
y为真值标签;
为预测标签。