1.一种音频处理网络的训练方法,其特征在于,所述方法包括:获取训练场景的单通道音频样本和所述训练场景的混合音频样本;
基于所述单通道音频样本对所述音频处理网络进行第一训练,以使所述音频处理网络执行立体声重构任务;
基于所述混合音频样本对所述音频处理网络进行第二训练,以使所述音频处理网络执行声源分离任务;
基于所述第一训练和第二训练,确定所述音频处理网络;
所述音频处理网络包括第一子网络和第二子网络,所述场景中的声源的数量为多个;
所述第一子网络用于根据所述训练场景的特征图对所述单通道音频样本进行处理,得到至少一个第一中间处理结果,以及根据所述训练场景中的多个声源的特征图对所述混合音频样本进行处理,得到至少一个第二中间处理结果,并将所述至少一个第一中间处理结果和所述至少一个第二中间处理结果输出至所述第二子网络;
所述第二子网络用于根据所述训练场景的特征图和所述至少一个第一中间处理结果,对所述单通道音频样本进行立体声重构,以及根据所述训练场景中的多个声源的特征图和所述至少一个第二中间处理结果,对所述混合音频样本进行声源分离;
所述训练场景中各个声源的特征图通过将所述训练场景中各个声源的特征映射到空白的特征图上得到,所述训练场景中各个声源的特征通过分别对所述训练场景中各个声源的图像进行特征提取得到,所述训练场景中各个声源中任意两个声源的特征在所述空白的特征图上的距离大于预设的距离阈值。
2.根据权利要求1所述的方法,其特征在于,所述基于所述单通道音频样本对所述音频处理网络进行第一训练,包括:将所述单通道音频样本输入所述第一子网络,获取所述第一子网络输出的至少一个第一中间处理结果;
将所述训练场景的特征图和所述至少一个第一中间处理结果输入所述第二子网络,对所述第二子网络进行第一训练。
3.根据权利要求1所述的方法,其特征在于,所述基于所述单通道音频样本对所述音频处理网络进行第一训练,包括:将所述单通道音频样本和所述训练场景的特征图输入所述第一子网络,对所述第一子网络进行第一训练。
4.根据权利要求1至3任意一项所述的方法,其特征在于,所述第一子网络和所述第二子网络均包括多个层;
所述基于所述单通道音频样本对所述音频处理网络进行第一训练,包括:将所述训练场景的特征图和所述单通道音频样本输入所述第一子网络进行处理,得到所述第一子网络的第m层的第一中间处理结果;
将所述第一子网络的第m层的第一中间处理结果作为所述第二子网络的第m层的输入,以对所述第二子网络进行第一训练,1≤m
5.根据权利要求1所述的方法,其特征在于,所述基于所述混合音频样本对所述音频处理网络进行第二训练,包括:将所述混合音频样本输入所述第一子网络,获取所述第一子网络输出的至少一个第二中间处理结果;
将所述训练场景中的多个声源的特征图和所述至少一个第二中间处理结果输入所述第二子网络,对所述第二子网络进行第二训练。
6.根据权利要求1所述的方法,其特征在于,所述基于所述混合音频样本对所述音频处理网络进行第二训练,包括:将所述混合音频样本和所述训练场景中的多个声源的特征图输入所述第一子网络,对所述第一子网络进行第二训练。
7.根据权利要求1、5或6所述的方法,其特征在于,所述第一子网络和所述第二子网络均包括多个层;
所述基于所述混合音频样本对所述音频处理网络进行第二训练,包括:将所述训练场景中各个声源的特征图和所述混合音频样本输入所述第一子网络进行处理,得到所述第一子网络的第n层的第二中间处理结果;
将所述第一子网络的第n层的第二中间处理结果作为所述第二子网络的第n层的输入,以对所述第二子网络进行第二训练,1≤n
8.根据权利要求1所述的方法,其特征在于,所述基于所述单通道音频样本对所述音频处理网络进行第一训练,包括:基于所述单通道音频样本对所述音频处理网络进行第一训练,以确定所述单通道音频样本在各个目标通道上的音频的第一掩膜;
分别根据第k个目标通道对应的第一掩膜确定所述第k个目标通道的第一音频频谱,k为正整数;
基于各个目标通道的第一音频频谱确定第一损失函数,并在所述第一损失函数满足预设的第一条件的情况下,停止所述第一训练。
9.根据权利要求1所述的方法,其特征在于,所述基于所述混合音频样本对所述音频处理网络进行第二训练,包括:基于所述混合音频样本对所述音频处理网络进行第二训练,以确定所述混合音频样本在各个目标通道上的音频的第二掩膜;
分别根据第q个目标通道对应的第二掩膜确定所述第q个目标通道的第二音频频谱,q为正整数;
基于各个目标通道的第二音频频谱确定第二损失函数,并在所述第二损失函数满足预设的第二条件的情况下,停止所述第二训练。
10.根据权利要求1所述的方法,其特征在于,所述单通道音频样本的幅值为多个目标通道的音频样本的幅值的平均值,所述多个目标通道为基于所述单通道音频样本重构得到的立体声音频所包括的通道;
所述混合音频样本的幅值为所述混合音频样本中包括的各个声源的音频样本的幅值的平均值。
11.根据权利要求1所述的方法,其特征在于,所述基于所述单通道音频样本对所述音频处理网络进行第一训练,包括:基于所述单通道音频样本和所述训练场景的特征图,对所述音频处理网络进行第一训练;
和/或
所述基于所述混合音频样本对所述音频处理网络进行第二训练,包括:基于所述混合音频样本和所述训练场景中各个声源的特征图,对所述音频处理网络进行第二训练。
12.一种立体声重构方法,其特征在于,所述立体声重构方法包括:获取目标场景的特征图和所述目标场景的单通道音频;
将所述目标场景的单通道音频和所述目标场景的特征图输入音频处理网络,以使所述音频处理网络根据所述目标场景的特征图对所述目标场景的单通道音频进行立体声重构;
所述音频处理网络基于权利要求1至11任意一项所述的方法训练得到。
13.一种音频处理网络的训练装置,其特征在于,所述装置包括:第一获取模块,用于获取训练场景的单通道音频样本和所述训练场景的混合音频样本;
第一训练模块,用于基于所述单通道音频样本对所述音频处理网络进行第一训练,以使所述音频处理网络执行立体声重构任务;
第二训练模块,用于基于所述混合音频样本对所述音频处理网络进行第二训练,以使所述音频处理网络执行声源分离任务;
确定模块,用于基于所述第一训练和第二训练,确定所述音频处理网络;
所述音频处理网络包括第一子网络和第二子网络,所述场景中的声源的数量为多个;
所述第一子网络用于根据所述训练场景的特征图对所述单通道音频样本进行处理,得到至少一个第一中间处理结果,以及根据所述训练场景中的多个声源的特征图对所述混合音频样本进行处理,得到至少一个第二中间处理结果,并将所述至少一个第一中间处理结果和所述至少一个第二中间处理结果输出至所述第二子网络;
所述第二子网络用于根据所述训练场景的特征图和所述至少一个第一中间处理结果,对所述单通道音频样本进行立体声重构,以及根据所述训练场景中的多个声源的特征图和所述至少一个第二中间处理结果,对所述混合音频样本进行声源分离;
所述训练场景中各个声源的特征图通过将所述训练场景中各个声源的特征映射到空白的特征图上得到,所述训练场景中各个声源的特征通过分别对所述训练场景中各个声源的图像进行特征提取得到,所述训练场景中各个声源中任意两个声源的特征在所述空白的特征图上的距离大于预设的距离阈值。
14.一种立体声重构装置,其特征在于,所述装置包括:
第二获取模块,用于获取目标场景的特征图和所述目标场景的单通道音频;
输入模块,用于将所述目标场景的单通道音频和所述目标场景的特征图输入音频处理网络,以使所述音频处理网络根据所述目标场景的特征图对所述目标场景的单通道音频进行立体声重构;
所述音频处理网络基于权利要求1至11任意一项所述的方法训练得到。
15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至12任意一项所述的方法。
16.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至12任意一项所述的方法。