买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种使用堆叠多尺度模块的语音增强方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种使用堆叠多尺度模块的语音增强方法

￥21600

专利号： 2019111826893

申请人：电子科技大学

专利类型：发明专利

专利状态：已下证

更新日期：2025-12-01

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种使用堆叠多尺度模块的端到端语音增强方法，其特征在于，包括以下步骤：S1：构建级联端到端语音增强框架，并将堆叠的多尺度模块拼接到网络结构中；

S2：在预处理阶段，将时域信号变换为二维特征；

S3：利用语音增强模块对二维特征进行增强；

S4：在后处理阶段，通过解码合成将增强后的特征表示变换为一维时域信号。

2.根据权利要求1所述的语音增强方法，其特征在于：所述级联端到端语音增强框架包括语音时域信号预处理、语音增强模块以及目标语音合成后处理；具体步骤包括：a.在时域信号预处理阶段，一维卷积被用来对输入的语音片段进行卷积操作，每一个卷积核对带噪语音y作用的结果被逐行堆叠起来，形成一个二维的实数值特征Y，启发自卷积神经网络对图片像素值的处理方式，将二维特征分离，得到绝对值特征和sgn mask；

b.带噪语音y的绝对值特征被输入到语音增强模块中增强，得到绝对值特征的估计将其与sgn mask相乘合成目标语音的特征表示：c.经过转置卷积将变换为时域信号

3.根据权利要求1所述的语音增强方法，其特征在于：所述多尺度模块包括平均池化层，卷积核为1×1和3×3的卷积，以及不同扩张率的扩张卷积。

4.根据权利要求1所述的语音增强方法，其特征在于，还包括以下步骤：运用多目标联合优化的训练策略将语音增强的评价指标STOI与SDR融入到损失函数中。

5.根据权利要求4所述的语音增强方法，其特征在于，将STOI指标融入到损失函数中的具体步骤包括：

1)STOI输入为纯净语音x和退化语音首先去除对语音可懂度无贡献的无声区域，然后用STFT将时域信号变换到时频域，通过将两个信号分割为50％重叠的带汉宁窗的帧；

2)进行1/3倍频带分析，划分共15个1/3倍频带，其中频带中心频率范围为4.3kHz至

150Hz，纯净语音的短时时间包络xj，m表示如下：[Xj(m-L+1)，Xj(m-L+2)，...Xj(m)]T其中X∈R为由x得到的1/3倍频带，M是一段语音的总帧数，m为帧的索引，j是1/3倍频带的索引，L对应语音的长度；

3)对语音归一化与裁剪，得到退化语音的包络表示可懂度表示为两个时间包络之间的相关系数：其中，||·||2为L2范数，μ(·)表示相应样本的均值向量。

4)计算所有波段和帧的可懂度的平均值，可以得到退化语音的STOI计算指标：

5)将增强语音带入到STOI计算公式中，即可得到训练过程中的STOI计算指标：其中，dj，m表示为增强语音与纯净语音时间包络的相关系数。

6.根据权利要求4所述的语音增强方法，其特征还在于，将SDR指标融入到损失函数中的具体步骤包括：

1)SDR的输入为纯净语音x和增强语音增强语音的SDR计算过程如下：