1.一种使用堆叠多尺度模块的端到端语音增强方法,其特征在于,包括以下步骤:S1:构建级联端到端语音增强框架,并将堆叠的多尺度模块拼接到网络结构中;
S2:在预处理阶段,将时域信号变换为二维特征;
S3:利用语音增强模块对二维特征进行增强;
S4:在后处理阶段,通过解码合成将增强后的特征表示变换为一维时域信号。
2.根据权利要求1所述的语音增强方法,其特征在于:所述级联端到端语音增强框架包括语音时域信号预处理、语音增强模块以及目标语音合成后处理;具体步骤包括:a.在时域信号预处理阶段,一维卷积被用来对输入的语音片段进行卷积操作,每一个卷积核对带噪语音y作用的结果被逐行堆叠起来,形成一个二维的实数值特征Y,启发自卷积神经网络对图片像素值的处理方式,将二维特征分离,得到绝对值特征和sgn mask;
b.带噪语音y的绝对值特征被输入到语音增强模块中增强,得到绝对值特征的估计将其与sgn mask相乘合成目标语音的特征表示:c.经过转置卷积将 变换为时域信号
3.根据权利要求1所述的语音增强方法,其特征在于:所述多尺度模块包括平均池化层,卷积核为1×1和3×3的卷积,以及不同扩张率的扩张卷积。
4.根据权利要求1所述的语音增强方法,其特征在于,还包括以下步骤:运用多目标联合优化的训练策略将语音增强的评价指标STOI与SDR融入到损失函数中。
5.根据权利要求4所述的语音增强方法,其特征在于,将STOI指标融入到损失函数中的具体步骤包括:
1)STOI输入为纯净语音x和退化语音 首先去除对语音可懂度无贡献的无声区域,然后用STFT将时域信号变换到时频域,通过将两个信号分割为50%重叠的带汉宁窗的帧;
2)进行1/3倍频带分析,划分共15个1/3倍频带,其中频带中心频率范围为4.3kHz至
150Hz,纯净语音的短时时间包络xj,m表示如下:[Xj(m-L+1),Xj(m-L+2),...Xj(m)]T其中X∈R为由x得到的1/3倍频带,M是一段语音的总帧数,m为帧的索引,j是1/3倍频带的索引,L对应语音的长度;
3)对语音归一化与裁剪,得到退化语音的包络表示 可懂度表示为两个时间包络之间的相关系数:其中,||·||2为L2范数,μ(·)表示相应样本的均值向量。
4)计算所有波段和帧的可懂度的平均值,可以得到退化语音的STOI计算指标:
5)将增强语音 带入到STOI计算公式中,即可得到训练过程中的STOI计算指标:其中,dj,m表示为增强语音与纯净语音时间包络的相关系数。
6.根据权利要求4所述的语音增强方法,其特征还在于,将SDR指标融入到损失函数中的具体步骤包括:
1)SDR的输入为纯净语音x和增强语音 增强语音的SDR计算过程如下:
2)对SDR优化目标进行等价变换以简化计算得到:其中,最大化评价指标SDR的过程就等价于最小化
7.根据权利要求4所述的语音增强方法,其特征还在于,将STOI与SDR评价指标融合到损失函数中,具体步骤包括:
1)计算常规的均方根误差,过程如下:
其中M和N是每条语音的采样点数与语音总条数;
2)将均方根误差与基于STOI和SDR的评价指标损失函数合并:式中,α,β,γ对应损失函数中的不同部分的系数。