欢迎来到利索能及~ 联系电话:18621327849
利索能及
我要发布
收藏
专利号: 2020114433634
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:授权未缴费
专利领域: 计算;推算;计数
更新日期:2024-10-29
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于无池化卷积嵌入和注意分布神经网络的新闻分类方法,其特征在于,包括以下步骤:

步骤1:搜集新闻文本数据集,对新闻文本进行规范化格式处理并分词,利用词嵌入获得新闻的特征向量,对于新闻标签,根据新闻类别和新闻数据对新闻进行随机切分,将语料分为训练集、测试集和验证集,训练集用于对新闻分类模型的训练,验证集用来验证模型是否合理,测试集用来测试模型分类的效果;

步骤2:将步骤1中语料中的训练集经过词嵌入得到的特征向量输入CNN卷积神经网络,取消CNN中的的池化层;

步骤3:将步骤2中经词嵌入和无池化卷积过后的特征向量输入注意力机制,对文本中的特征向量进行权重的重新分配从而训练出新闻分类模型;

步骤4:将步骤1中的语料中的测试集的文本向量输入CNN,根据步骤3中已经训练好的模型进行新闻类别分类并计算出新闻分类的准确率。

2.根据权利要求1所述的一种基于无池化卷积嵌入和注意分布神经网络的新闻分类方法,其特征在于,所述步骤1:搜集新闻数据集,对于中文新闻,规范化数据集格式,格式为:“标签+‘\t’+新闻”形式,将分词后的新闻文本单词用作word embedding层的输入得到一组词的特征向量x0,x1,x2,...,xt。该特征向量,即为计算机可以识别的语言。对于文本类别标签,指定了输入语言的大小字母,并且每个字符都使用1‑m编码进行编码;然后,将字符序列向量的序列转换为固定长度l0,超过该长度l0的所有字符都将被忽略,并且小于l0的矢量将在后面填充0。

3.根据权利要求2所述的一种基于无池化卷积嵌入和注意分布神经网络的新闻分类方法,其特征在于,所述步骤2将步骤1中的语料中的训练集的词向量x0,x1,x2,...,xn输入CNN,取消字符卷积网络的池化层,具体为:将经过分布式表示的词向量输入到一维卷积网络中,该网络包含输入层,卷积层,输出层,取消卷积神经网络的池化层以最大化保留文本特征,一维卷积计算得到离散函数和离散核函数的卷积之和:其中τ(x)是离散核函数,输入的离散函数是δ(x),d是步长,b为偏差项,其中x表示词向量,n表示新闻词向量的数目。

4.根据权利要求3所述的一种基于无池化卷积嵌入和注意分布神经网络的新闻分类方法,其特征在于,所述b=k‑d+1.是偏移常数,由一组内核函数τij(x)进行参数化,i=1,

2,...,v,j=1,2,...,w,每个输入δi(x)或输出cj(y)都称为″features″,m和n代表输入和输出特征的大小,输出cj(y)是δi(x)和τij(x)的卷积之和。

5.根据权利要求4所述的一种基于无池化卷积嵌入和注意分布神经网络的新闻分类方法,其特征在于,所述步骤3将步骤2中经词嵌入和无池化卷积过后的特征向量输入注意力机制,对文本中的特征向量进行权重的重新分配从而训练出新闻分类模型,具体为:对于步骤2得到的特征向量,输入注意力模型,每个单词x0,x1,...,xn都表示为矢量形式,并输入到卷积单元,从而得到输出h0,h1,...,hn,该输出作为注意力机制的输入source=h0,h1,...,hn,计算文本的最终特征向量。在注意力机制中,隐藏层t时刻状态ht被随机初始化,并且在训练过程中作为参数被更新,同时给出源侧上下文向量st,源侧上下文向量st被计算为各个输入的加权和,计算如下:其中L表示新闻文本长度,at(s)表示可变长度对齐向量, 表示编码器的隐藏层状态。

上下文向量st应考虑编码器的所有隐藏状态,在注意机制部分,通过将解码器t时刻隐藏状态ht与编码器的每个源隐藏状态 进行比较来生成可变长度对齐向量at(s):fa是一个基于内容的函数, 表示解码器t时刻隐藏状态ht与编码器的源隐藏状态 的函数, 表示解码器t时刻隐藏状态与编码器的从初始位置s1开始的所有源隐藏状态的内容函数。

fa的计算具有3个不同的公式:

其中Wa是注意力模型的权重矩阵。

在每个时间步长,模型都会基于当前目标状态和所有源状态来推断可变长度的对齐权重向量,然后根据at(s)在所有源状态上将全局上下文向量计算为加权平均值。

隐藏层t时刻状态ht和上下文向量st两个向量的信息被组合以生成以下解码器的注意力隐藏状态:

其中 代表新生成注意力隐藏状态向量, 表示注意力模型权重的全连接矩阵,u表示注意力机制隐藏单元数。

6.根据权利要求5所述的一种基于无池化卷积嵌入和注意分布神经网络的新闻分类方法,其特征在于,引入注意机制后,按如下方式计算文本的最终表示形式:ut=tanh(Wsht+bs)             (6)v=∑twtht               (8)在计算过程中,Ws代表注意力模型的权重系数矩阵,ht是卷积在t时刻的特征表示,ut是神经网络的隐藏层表示,并且us是随机初始化的上下文向量,也可以称为输入的语义表示,wt是通过Softmax函数归一化后的重要权重,v是文本的最终特征向量。

7.根据权利要求6所述的一种基于无池化卷积嵌入和注意分布神经网络的新闻分类方法,其特征在于,所述步骤4将步骤1中的语料中的测试集的文本向量输入CNN,根据步骤3中已经训练好的模型进行新闻类别分类并计算出新闻分类的准确率,具体包括:模型使用Leaky_ReLU激活函数,在ReLU的负半部分引入了Leaky值,因此称为Leaky ReLU函数,与ReLU不同,如下公式,LReLU为所有负值分配一个非零的斜率;

ag是固定的,g表示对应不同的路线ag;最后,通过Softmax分类器进行多分类以获得结果;

result=softmax(v)                (10)result是一个向量,其维数为类别数,每个维度的数量在[0,1]范围内,它表示文本落入某个类别的概率,输入句子的预测类别准确率为:prediction=argmax(result)              (11) 。