利索能及
我要发布
收藏
专利号: 2022106470594
申请人: 重庆理工大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-05-07
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种卷积增强外部注意力的多说话人时域语音分离方法,其特征在于,包括以下步骤:S1.通过编码器将多说话人混合语音,进行卷积运算,转换为其潜在特征表示;

记多说话人混合语音为x(t), 其中, 为实数域;T为语音长度;

记潜在特征表示为h, 其中,CE为编码器通道数;L为潜在特征表示的长度;

S2.通过基于卷积增强外部注意力模块的分离器学习得到语音掩码;

S3.语音掩码与编码器输出的潜在特征表示相乘,再通过解码器的反卷积运算重建波形得到分离后的语音;

S2主要包括以下步骤:

全局归一化和卷积操作:将潜在特征表示h,映射并得到一个中间表示 其中,C为通道数;

分割堆叠:将中间表示h'分割成S个有重叠的长度为K的较小块,组成一个三维向量其中,K为重叠块的长度,S为重叠块的个数;

ExConformer变换:对三维向量T的块内维度K维和S维迭代地应用B个ExConformer模块组成的变换,块内处理的输出Tb将作为块间处理的输入;

即第b‑1个ECBlock的输出将作为第b个块的输入,b=1,…,B,表示如下:Tb=ECBlockintra(Ub‑1)Ub=ECBlockinter(Tb)维度变换:对第B个ECBlock块的输出UB应用二维卷积来为每个源学习掩码,得到三维向量Y=Conv2D(UB)

聚合多通道信息处理:经过重叠相加的操作将三维向量Y转换为每个源的中间潜在表示 对y应用一维卷积和PReLU来聚合多个通道上的信息,对于第i个源,其语音掩码的估计掩码 如下:

所述ExConformer模块由位置卷积模块、外部注意力模块、卷积模块、前馈神经网络模块组成,每个模块之间添加残差连接;

若将第i个ExConformer模块的输入定义为xi,则其输出yi,表示如下:x″i=x′i+Conv(x′i)

yi=Layernorm(x″i+FFN(x″i))。

2.根据权利要求1所述的一种卷积增强外部注意力的多说话人时域语音分离方法,其特征在于,所述ExConformer模块的卷积模块和前馈神经网络模块的激活函数使用Penalized_tanh。

3.根据权利要求1所述的一种卷积增强外部注意力的多说话人时域语音分离方法,其特征在于,所述位置卷积模块由多个堆叠的带zero‑paddings的一维卷积、层归一化和ReLU激活层组成。

4.根据权利要求1所述的一种卷积增强外部注意力的多说话人时域语音分离方法,其特征在于,所述外部注意力模块的步骤如下:通过一个一维卷积调整输入特征的通道数;

使用一个线性层来构造Mk存储器来学习查询向量之间的注意力图A;

其中,F为输入的特征图; 为Mk的转置;

对其进行softmax和L1范数归一化(L1_Norm);

使用一个线性层来构造Mv存储器来生成细化的特征图,表示如下:Fout=AMv

对输出结果进行Dropout操作。