利索能及
我要发布
收藏
专利号: 2022107086366
申请人: 宁波大学
专利类型:发明专利
专利状态:授权未缴费
更新日期:2025-07-12
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种立体声音频生成方法,其特征在于包括如下步骤:

步骤1、构建训练集和测试集:获取多个立体声音频,并将每个立体声音频拆分成左声道音频和右声道音频,即训练集中的每个训练样本和测试集中的每个测试样本分别包括左声道音频及与该左声道音频所对应的右声道音频;

步骤2、构建立体声音频生成模型,并使用训练集对构建的立体声音频生成模型进行训练,得到训练完成的立体声音频生成模型;

构建的立体声音频生成模型包括生成器和判别器,使用任一个训练样本对立体声音频生成模型的训练过程为:在训练样本A的左声道音频和右声道音频中任意选择一个音频x输入到生成器中,即得到生成器生成的识别音频x′;并将该识别音频x′和训练样本A中的另一音频y输入到判别器中,即得到判别器的判别结果;最后分别计算生成器和判别器的损失函数,并以该损失函数更新生成器和判别器的参数;

步骤3、选择测试集中的任意一个测试样本,将测试样本中的左声道音频或右声道音频输入到训练完成的生成器中,即输出一个音频,并将该生成器生成的音频与输入到生成器中的音频进行组合,即生成一个立体声音频。

2.根据权利要求1所述的立体声音频生成方法,其特征在于:所述步骤2中的生成器使用SEGAN网络。

3.根据权利要求2所述的立体声音频生成方法,其特征在于:所述生成器包括下采样组件和与下采样组件相连接的上采样组件,其中下采样组件由依次相连接的a个卷积层、第一批量归一化层和第一激活函数组成,上采样组件由依次相连接的a个反卷积层、第二批量归一化层和第二激活函数组成,且第i个卷积层和第i个反卷积层之间为跳跃式连接,a为正整数,i=1、2、…a。

4.根据权利要求3所述的立体声音频生成方法,其特征在于:所述第一激活函数为LeakyReLU激活函数,所述第二激活函数为ReLU激活函数。

5.根据权利要求1所述的立体声音频生成方法,其特征在于:所述步骤2中的判别器包括依次相连接的m个卷积层和n个全连接层,前m‑1个卷积层均包括依次相连接的卷积操作、激活函数和最大池化操作,第m个卷积层包括相连接的卷积操作和激活函数;m和n均为正整数。

6.根据权利要求1~5任一项所述的立体声音频生成方法,其特征在于:所述步骤2中生成器的损失函数Lg的计算公式为:Lg=Lα+Lβ

其中,Lα为训练样本A中音频y与识别音频x’之间的质量感知损失,

N为输入到生成器中的音频批次大小,yi为音频y的第i个位置的数

据,G(xi)为训练样本A中音频x的第i个位置的数据输入到生成器后的输出;Lβ为来自判别器的判别损失,Lβ=tlogD(x′)+(1‑t)log(1‑D(x′));t为判别器输出的标签,t=1;x′为判别器的输出。

7.根据权利要求6所述的立体声音频生成方法,其特征在于:所述步骤2中判别器的损失函数Ld的计算公式为:其中, 和 分别表示生成器得到的识别结果为真和假时的损失函数,