买专利、卖专利、专利购买、专利交易、专利出售、高企申报-基于轻量化Transformer网络的语音识别系统及方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

基于轻量化Transformer网络的语音识别系统及方法

面议

专利号： 2023100657281

申请人：西南大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-07-01

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于轻量化Transformer网络的语音识别系统，其特征在于，包括预处理模块、第一前向传播模块、多头注意力模块、卷积模块、第二前向传播模块和全连接层模块，其中：所述预处理模块用于采集语音数据并提取语音数据中的特征参数，形成训练样本、验证样本和测试样本；

所述第一前向传播模块包括第一层正则化电路、第一线性化电路、第一Swish激活函数电路、第二线性化电路和第一加法电路，所述第一层正则化电路用于对所述预处理模块提取的每一项特征参数进行正则化处理，正则化处理后的数据依次经过第一线性化电路、第一Swish激活函数电路和第二线性化电路处理后，由所述第一加法电路实现残差连接并传递到所述多头注意力模块中；所述第一前向传播模块中的至少一部分参数由忆阻交叉阵列电路实现；

所述多头注意力模块包括第二层正则化电路、查询矩阵电路、键矩阵电路、值矩阵电路、第一存储模块、第一乘累加电路、SoftMax激活函数电路、第二乘累加电路、第二加法电路和第二存储模块；所述第二层正则化电路对所述第一前向传播模块输出的每一项信号进行正则化处理，所述查询矩阵电路、所述键矩阵电路和所述值矩阵电路由忆阻交叉阵列电路实现，用于计算输入信息特征的单头注意力，所述第一存储阵列用于实现多个单头注意力的缓存，并在控制信号的驱动下选择性输出至第一乘累加电路中，得到查询矩阵每一行输出电压和键矩阵每一列输出电压的乘积，所述第一乘累加电路每一项输出经过SoftMax激活函数电路处理后再利用所述第二乘累加电路实现与所述值矩阵每一列输出电压进行乘积运算，最后利用第二加法电路进行残差连接后将计算结果存储在第二存储模块中；

所述卷积模块包括第三层正则化电路、第一点向卷积模块、门控线性单元、深度卷积电路和第二点向卷积模块；

所述第二前向传播模块的电路结构与所述第一前向传播模块的电路结构相同，用于对所述卷积模块的输出进行前向传播，最后经过所述全连接层模块得出最终输出；

通过训练样本对所述第一前向传播模块、所述多头注意力模块、所述卷积模块、所述第二前向传播模块和所述全连接层模块中的各项参数进行训练，利用验证样本对训练后的系统电路进行验证，最后训练好的系统电路作为语音识别系统进行测试样本的语音识别；

所述第一线性化电路和所述第二线性化电路通过忆阻器交叉阵列实现线性化层参数的映射；

所述第一Swish激活函数电路用于实现：的信号转化，其中Vd

为第一Swish激活函数电路的输入信号，Vsh为第一Swish激活函数电路的输出信号，β为预设的超参数，Vbias3为偏置电压；

所述第一点向卷积模块和第二点向卷积模块的内核大小为1×1，所述深度卷积电路的内核大小为C1×C1，其中C1为所述多头注意力模块输出的信号列数。

2.根据权利要求1所述的基于轻量化Transformer网络的语音识别系统，其特征在于，所述预处理模块利用梅尔‑频谱系数将获取的语音数据进行预处理，并在每一帧语音中提取20个特征。

3.根据权利要求1或2所述的基于轻量化Transformer网络的语音识别系统，其特征在于，在所述第一前向传播模块中的第一层正则化电路的每一路输入端上设置有信号选择开关，用于实现每一路信号特征的选择性输入。

4.根据权利要求1所述的基于轻量化Transformer网络的语音识别系统，其特征在于，所述第一层正则化电路按照对输入的每一路信号特征进行正则化处理，其中Vx表示输入的信号特征，Rf表示第一层正则化电路中预设反馈电阻，M1为第一权重系数矩阵，Vbias1为第一偏置电压矩阵，且所述第一权重系数矩阵和所述第一偏置电压矩阵由第一忆阻交叉阵列电路实现。

5.根据权利要求1或4所述的基于轻量化Transformer网络的语音识别系统，其特征在于，所述第二层正则化电路与所述第一层正则化电路的结构相同，且在最后训练好的系统电路中，利用忆阻交叉阵列实现第一乘累加电路和第二乘累加电路。

6.根据权利要求5所述的基于轻量化Transformer网络的语音识别系统，其特征在于，所述第三层正则化电路与所述第一层正则化电路的结构相同，在所述门控线性单元的输出端设置有第三存储模块，在深度卷积电路输出端设置有批正则化电路、第二Swish激活函数电路以及第四存储模块，所述第二Swish激活函数电路与所述第一Swish激活函数电路机构相同，通过所述第三存储模块将多路经过所述第三层正则化电路处理后的行电压送入所述深度卷积电路中，所述深度卷积电路输出信号经过所述批正则化电路和所述第二Swish激活函数电路后由所述第四存储模块将其送入第二点式卷积模块，最后利用第三加法电路进行残差连接，其中所述深度卷积电路中的卷积核的权重由忆阻交叉阵列实现。

7.根据权利要求1所述的基于轻量化Transformer网络的语音识别系统，其特征在于，所述SoftMax激活函数电路设置有指数函数电路、两个晶体管、运算放大器和分压器，用于实现的信号处理，其中Vin为SoftMax激活函数电路的多路输入信号，Vstm为SoftMax激活函数电路的输出信号，是一个预设的比例系数，m为输入的信号总路数。

8.一种基于轻量化Transformer网络的语音识别方法，其特征在于：构建权利要求1‑7任一所述的语音识别系统，通过预先训练确定各个参数的取值，然后利用忆阻交叉阵列来实现相应的参数配置，从而形成语音识别模型进行语音识别。