利索能及
我要发布
收藏
专利号: 2017107024405
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-05-07
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于Maxout神经元的深度双向LSTM声学模型,其特征在于,该模型包括:多个双向长短时记忆网络BLSTM层形成的多层DBLSTM深度双向长短时记忆网络、选择连接层、全连接层和隐马尔可夫模型,其中,所述多层DBLSTM深度双向长短时记忆网络用于语音识别的声学模型,所述选择连接层用于对多个双向长短时记忆网络BLSTM层的输出进行加权变换,所述全连接层用于对加权变换后的值进行非线性变换,最终得到隐马尔可夫模型所需的后验概率,所述隐马尔可夫模型用于得到语音识别概率;将语音特征输入多层DBLSTM网络进行非线性变换,得到具有上下文语音帧信息的特征矢量,多层DBLSTM网络采用CSC-BPTT上下文敏感块的随时间反向传播训练算法进行网络参数训练;多层BLSTM网络输出的数据采用选择连接层对其进行加权变换后再作为全连接层的输入;全连接层对输入数据进行变换,全连接层部分采用Maxout单元代替原来的Sigmoid单元,并且利用Dropout正则化训练算法对其进行参数训练,再通过Softmax输出层得到声学模型中HMM模型所需的后验概率;

前端DBLSTM神经网络得到后验概率后,在经过HMM模型最终输出得到声学模型得分;

所述DBLSTM网络通过两个单独的隐含层同时处理两个方向的信息,然后前馈到同一个输出层,DBLSTM网络中含有两个LSTM层,一层从前到后迭代计算前向隐含层向量另一层从后向前迭代计算后向隐含层向量然后,更新输出序列y=(y1,y2,...,yt,...,yT),该网络的迭代过程如下:by表示输出层的偏置向量,yt表示输出值,H表示输出层的激活函数,表示LSTM中的权值矩阵, 表示前向隐含层的偏置向量, 表

示后向隐含层的偏置向量;

所述DBLSTM深度双向长短时记忆递归神经网络计算方法为:

首先,对于标准的RNN,给定一个输入序列x=(x1,x2,...,xT),通过t=1到T迭代计算出RNN隐含层的状态向量h=(h1,h2,...,hT)和输出向量y=(y1,y2,...,yT),即ht=H(Wxhxt+Whhht-1+bh)yt=Whyht+by

其中,W代表各层间的权值矩阵;bh和by分别为隐含层和输出层的偏置向量;H为输出层的激活函数,Wxh表示输如层和隐含层之间的权值矩阵,Whh表示隐含层与隐含层之间的权值矩阵,Why表示隐含层和输入层之间的权值矩阵;

LSTM单元中,激活函数H通过下列公式实现:

it=σ(Wxixt+Whiht-1+Wcict-1+bi)

ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf)

ct=ftct-1+ittanh(Wxcxt+Whcht-1+bc)ot=σ(Wxoxt+Whoht-1+Wcoct-1+bo)

ht=ottanh(ct)

其中,σ为标准sigmoid函数;i、f、o和c分别为输入门、遗忘门、输出门和内存单元;bi、bf、bo和bc分别为输入门、遗忘门、输出门和内存单元的偏置向量;W为各单元与门矢量之间的权值矩阵,如Wxi为网络输入和输入门之间的权重矩阵;

所述选择连接层的计算方法为:

yt表示输出值

该层是将DBLSTM最后一层BLSTM隐含层输出的两个矢量数据按照上述公式进行加权求和,最终得到一个矢量作为全连接层的输入信号;

所述全连接层中Dropout正则化训练算法计算方法为:

Dropout正则化在训练阶段和测试阶段分别采用不同的正则化方法:

1)SGD训练阶段:将二值掩膜ml应用于原始激活单元,从而获得Maxout神经元输出值:T

hl=ml⊙θ(Wlhl-1+bl)

其中,θ代表神经元进行的非线性变换,⊙是向量的乘积,二值掩膜ml服从伯努利分布(1-r),r称为Dropout率;

2)测试阶段:不需要省略激活神经元,但神经元激活值要按照1-r进行缩小用于补偿Dropout训练。

2.根据权利要求1所述的基于Maxout神经元的深度双向LSTM声学模型,其特征在于,所述全连接层中Maxout神经元的计算方法为:在Maxout神经网络中,每个Maxout神经元由几个可选择的激活单元组成,Maxout神经元的输出是选择其的激活单元单元组中最大值:其中, 是第l层中第i个神经元输出,k是Maxout神经元激活单元组中激活单元的个数,是第l层中第i个神经元的第j个激活单元,是由前一层向前传播获得:zl=WlThl-1+bl

其中,WlT和bl分别是前一层神经元到激活单元zl的权重矩阵和偏置向量,在SGD训练过程中,Maxout神经元的梯度计算为:公式表明,当取最大值时Maxout神经元的梯度为1,否则为0,这样在训练期间产生恒定的梯度,从而解决了梯度消失的问题。

3.根据权利要求1所述的基于Maxout神经元的深度双向LSTM声学模型,其特征在于,所述的DBLSTM网络的训练算法CSC-BPTT算法的计算过程为:Chunk BPTT算法是将给定的每个序列分成多个特定长度Nc的可能重叠Chunk块,这些Chunk共同组成一个较大的块batch,对于长度小于Nc的Chunk,添加空帧,在训练时每个Chunk被当作独立的序列并行输入进行训练,从而更新网络参数;

CSC-BPTT算法是在Chunk BPTT算法的基础上进行改进的,上下文敏感块在固定数据帧Nc的Chunk左侧添加帧数为Nl的数据作为上文信息,在Chunk右侧添加帧数为Nr的数据作为下文信息,将CSC记为“Nl-Nc+Nr”,整个序列被分为多个上下文敏感块,其中,第一个Chunk的Nl=0,最后一个Chunk的Nr=0;

在训练过程中,附加的上下文帧与Chunk帧结合作为输入,生成Chunk帧的输出,由于上下文帧本身并不产生输出,所以这些帧在训练期间不会产生错误信号,但Chunk帧的错误信号仍会流经上下文帧用以获得相应的梯度值,从而更新网络参数。