买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种卷积增强外部注意力的多说话人时域语音分离方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种卷积增强外部注意力的多说话人时域语音分离方法

￥18000

专利号： 2022106470594

申请人：重庆理工大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-05-07

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种卷积增强外部注意力的多说话人时域语音分离方法，其特征在于，包括以下步骤:S1.通过编码器将多说话人混合语音，进行卷积运算，转换为其潜在特征表示；

记多说话人混合语音为x(t)，其中，为实数域；T为语音长度；

记潜在特征表示为h，其中，CE为编码器通道数；L为潜在特征表示的长度；

S2.通过基于卷积增强外部注意力模块的分离器学习得到语音掩码；

S3.语音掩码与编码器输出的潜在特征表示相乘，再通过解码器的反卷积运算重建波形得到分离后的语音；

S2主要包括以下步骤：

全局归一化和卷积操作：将潜在特征表示h，映射并得到一个中间表示其中，C为通道数；

分割堆叠：将中间表示h'分割成S个有重叠的长度为K的较小块，组成一个三维向量其中，K为重叠块的长度，S为重叠块的个数；

ExConformer变换：对三维向量T的块内维度K维和S维迭代地应用B个ExConformer模块组成的变换,块内处理的输出Tb将作为块间处理的输入；

即第b‑1个ECBlock的输出将作为第b个块的输入，b＝1,…,B，表示如下：Tb＝ECBlockintra(Ub‑1)Ub＝ECBlockinter(Tb)维度变换：对第B个ECBlock块的输出UB应用二维卷积来为每个源学习掩码，得到三维向量Y＝Conv2D(UB)

聚合多通道信息处理：经过重叠相加的操作将三维向量Y转换为每个源的中间潜在表示对y应用一维卷积和PReLU来聚合多个通道上的信息，对于第i个源，其语音掩码的估计掩码如下：

所述ExConformer模块由位置卷积模块、外部注意力模块、卷积模块、前馈神经网络模块组成，每个模块之间添加残差连接；

若将第i个ExConformer模块的输入定义为xi，则其输出yi，表示如下：x″i＝x′i+Conv(x′i)

yi＝Layernorm(x″i+FFN(x″i))。

2.根据权利要求1所述的一种卷积增强外部注意力的多说话人时域语音分离方法，其特征在于，所述ExConformer模块的卷积模块和前馈神经网络模块的激活函数使用Penalized_tanh。

3.根据权利要求1所述的一种卷积增强外部注意力的多说话人时域语音分离方法，其特征在于，所述位置卷积模块由多个堆叠的带zero‑paddings的一维卷积、层归一化和ReLU激活层组成。

4.根据权利要求1所述的一种卷积增强外部注意力的多说话人时域语音分离方法，其特征在于，所述外部注意力模块的步骤如下：通过一个一维卷积调整输入特征的通道数；

使用一个线性层来构造Mk存储器来学习查询向量之间的注意力图A；

其中，F为输入的特征图；为Mk的转置；

对其进行softmax和L1范数归一化(L1_Norm)；

使用一个线性层来构造Mv存储器来生成细化的特征图，表示如下：Fout＝AMv

对输出结果进行Dropout操作。

推荐专利

语音增强方法、语音识别方法、说话人识别方法和系统

一种基于卷积神经网络的多说话人语音分离方法

发明专利

￥16800

一种基于双注意力机制动态卷积的说话人识别方法

发明专利

￥16000

我要求购

您有专利需要变现?

我要出售

智能匹配需求，快速出售

摘要:

权利要求书:

利索能及

友情链接

关于我们

联系我们