利索能及
我要发布
收藏
专利号: 2015108304442
申请人: 南京师范大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-08-18
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种通信终端双麦克风消噪系统中的语音活动检测方法,其特征在于包括如下步骤:

1)神经网络训练:选取训练样本,提取特征,并得到对应的语音活动检测结果,利用特征和对应的语音活动检测结果对神经网络进行训练,得到训练好的神经网络;

2)基于训练好的神经网络进行语音活动检测:通过通信终端的主、次麦克风采集待测的模拟带噪语音信号,并通过模数转换器转换为数字采样信号,得到待测的分别对应于主、次麦克风的数字带噪语音信号,接着对该数字带噪语音信号提取特征,然后将特征送入步骤1)训练好的神经网络,由神经网络输出语音活动检测的最终检测结果;

所述步骤1)和步骤2)中的特征包括子带互通道能量差和归一化的互通道相关,其中,所述特征中子带互通道能量差的计算方法为:使用短时傅里叶变化将主、次麦克风接受的信号转化到频域,在频域使用24个MEL频带对频域进行划分,对每一帧信号,先分别计算主、次麦克风的信号功率谱,再计算主、次麦克风的信号功率谱在每个频点的比值,对每个子带,将子带内每个频点的功率比值取对数相加求和再除以子带的频点数进行平均,然后得到每个子带的互通道能量差作为训练神经网络的特征,其中第b个子带互通道能量差为:其中,uh(b)和ul(b)分别为第b个子带的上下边界, 和 分别为主麦克风和次麦克风中第n帧信号的第k个频点的功率谱,k代表频率点,n代表语音帧标号,i为麦克风的标号;

所述特征中归一化的互通道相关的计算方法为:在时域将主、次麦克风中的信号划分为短时帧,对每一帧信号,先计算主、次麦克风接受的信号幅值的均值,然后,在每个采样点上,再用主麦克风中的信号幅值减去对应均值的值,与当前采样点经过τ个采样点的延时后的次麦克风中的信号幅值减去对应均值的值相乘,并将每个采样点计算的结果在一帧内求和,最后对求和的值进行归一化,得到对应每一帧的归一化互通道相关T(n,τ),计算公式如下:其中,L代表每一帧时域信号的长度,τ为延时,x1,n和x2,n分别为主、次麦克风中的数字带噪语音信号, 和 分别为每一帧内主麦克风和次麦克风接受的信号的均值。

2.根据权利要求1所述的通信终端双麦克风消噪系统中的语音活动检测方法,其特征在于:所述1)神经网络训练包括如下步骤:

(11)通过通信终端的主麦克风和次麦克风采集训练用的模拟带噪语音信号作为神经网络的训练样本;

(12)通过模数转换器分别将主、次麦克风采集到的训练用模拟带噪语音信号转换为对应的数字采样信号,得到训练用的分别对应于主、次麦克风的数字带噪语音信号;

(13)将该数字采样信号传输至通信终端处理器;

(14)在处理器中对训练用数字带噪语音信号提取特征,包括:子带互通道能量差和归一化的互通道相关;并对每帧训练用数字带噪语音信号进行标记得到对应的语音活动检测结果;

(15)将特征作为神经网络的输入,步骤(14)中得到的语音活动检测结果作为输出目标训练神经网络;

(16)存储训练完毕的神经网络的权值和神经元个数;

所述2)基于训练好的神经网络进行语音活动检测包括如下步骤:

(21)通过通信终端的主麦克风和次麦克风采集待测的模拟带噪语音信号;

(22)通过模数转换器分别将主、次麦克风采集到的模拟带噪语音信号转换为对应的数字采样信号,得到待测的分别对应于主、次麦克风的数字带噪语音信号;

(23)将该数字采样信号传输至通信终端处理器;

(24)在处理器中对待测的数字带噪语音信号提取特征,包括:子带互通道能量差和归一化的互通道相关;

(25)将步骤(24)提取的特征作为输入送入步骤1)中已训练完毕的神经网络,该神经网络使用步骤(16)存储的神经网络的权值和神经元个数;

(26)将神经网络的输出作为语音活动检测的最终检测结果。

3.根据权利要求2所述的通信终端双麦克风消噪系统中的语音活动检测方法,其特征在于:所述步骤(11)中,所采集的训练样本中包括训练集和验证集;

所述步骤(15)中将特征作为神经网络的输入,步骤(14)中得到的语音活动检测结果作为输出目标训练神经网络,具体包括:根据预设的神经网络隐藏层神经元个数的范围,将从训练集中提取的特征作为神经网络的输入,对应训练集的语音活动检测结果作为神经网络的输出目标,计算神经网络的输出结果与输出目标之间的误差;通过误差反向传播算法持续调整神经网络的权值,直到误差小于预设的阈值或者训练次数达到预期最大迭代次数则停止神经网络的训练;然后使用验证集验证神经网络的结果,将从验证集中提取的特征作为神经网络的输入,神经网络的输出结果和对应验证集的语音活动检测结果进行比较,统计神经网络输出结果的正确率,如果正确率优于之前训练得到的结果,则记录此时的神经元个数;增加一个神经元重复上述的训练和验证步骤,直到到达设定神经元个数的上限,最后选取最优的结果对应的神经元个数,并记录此时神经网络内部的权值作为最终训练完毕的神经网络。

4.一种通信终端双麦克风消噪系统中的语音活动检测装置,其特征在于包括:

神经网络训练单元:用于选取训练样本,提取特征,并得到对应的语音活动检测结果,利用特征和对应的检测结果对神经网络进行训练,得到训练好的神经网络;

基于训练好的神经网络进行语音活动检测单元:用于通过通信终端的主、次麦克风采集待测的模拟带噪语音信号,并通过模数转换器转换为数字采样信号,得到待测的分别对应于主、次麦克风的数字带噪语音信号,接着对该数字带噪语音信号提取特征,然后将特征送入神经网络训练单元训练好的神经网络,由神经网络输出语音活动检测的最终检测结果;

所述神经网络训练单元和基于训练好的神经网络进行语音活动检测单元中的特征包括子带互通道能量差和归一化的互通道相关,其中,所述特征中子带互通道能量差的计算方法为:使用短时傅里叶变化将主、次麦克风接受的信号转化到频域,在频域使用24个MEL频带对频域进行划分,对每一帧信号,先分别计算主、次麦克风的信号功率谱,再计算主、次麦克风的信号功率谱在每个频点的比值,对每个子带,将子带内每个频点的功率比值取对数相加求和再除以子带的频点数进行平均,然后得到每个子带的互通道能量差作为训练神经网络的特征,其中第b个子带互通道能量差为:其中,uh(b)和ul(b)分别为第b个子带的上下边界, 和 分别为主麦克风和次麦克风中第n帧信号的第k个频点的功率谱,k代表频率点,n代表语音帧标号,i为麦克风的标号;

所述特征中归一化的互通道相关的计算方法为:在时域将主、次麦克风中的信号划分为短时帧,对每一帧信号,先计算主、次麦克风接受的信号幅值的均值,然后,在每个采样点上,再用主麦克风中的信号幅值减去对应均值的值,与当前采样点经过τ个采样点的延时后的次麦克风中的信号幅值减去对应均值的值相乘,并将每个采样点计算的结果在一帧内求和,最后对求和的值进行归一化,得到对应每一帧的归一化互通道相关T(n,τ),计算公式如下:其中,L代表每一帧时域信号的长度,τ为延时,x1,n和x2,n分别为主、次麦克风中的数字带噪语音信号, 和 分别为每一帧内主麦克风和次麦克风接受的信号的均值。

5.根据权利要求4所述的通信终端双麦克风消噪系统中的语音活动检测装置,其特征在于:所述神经网络训练单元中包括:

训练样本采集模块:用于通过通信终端的主麦克风和次麦克风采集训练用的模拟带噪语音信号作为神经网络的训练样本;

模数转换模块:用于通过模数转换器分别将主、次麦克风采集到的训练用模拟带噪语音信号转换为对应的数字采样信号,得到训练用的分别对应于主、次麦克风的数字带噪语音信号;

信号传输模块:用于将该数字采样信号传输至通信终端处理器;

信号特征提取和语音活动检测模块:用于在处理器中对训练用数字带噪语音信号提取特征,包括:子带互通道能量差和归一化的互通道相关;并对每帧训练用数字带噪语音信号进行标记得到对应的语音活动检测结果;

训练模块:用于将特征作为神经网络的输入,信号特征提取和语音活动检测模块中得到的语音活动检测结果作为输出目标训练神经网络;

存储模块:用于存储训练完毕的神经网络的权值和神经元个数;

所述基于训练好的神经网络进行语音活动检测单元包括:

信号采集模块:用于通过通信终端的主麦克风和次麦克风采集待测的模拟带噪语音信号;

模数转换模块:用于通过模数转换器分别将主、次麦克风采集到的模拟带噪语音信号转换为对应的数字采样信号,得到待测的分别对应于主、次麦克风的数字带噪语音信号;

信号传输模块:用于将该数字采样信号传输至通信终端处理器;

信号特征提取模块:用于在处理器中对待测的数字带噪语音信号提取特征,包括:子带互通道能量差和归一化的互通道相关;

待测语音活动检测模块:用于将信号特征提取模块提取的特征作为输入送入神经网络训练单元中已训练完毕的神经网络,该神经网络使用神经网络训练单元中存储模块存储的神经网络的权值和神经元个数;

输出单元:用于将神经网络的输出作为语音活动检测的最终检测结果输出。

6.根据权利要求5所述的通信终端双麦克风消噪系统中的语音活动检测装置,其特征在于:所述神经网络训练单元的训练样本采集模块中,所采集的训练样本中包括训练集和验证集;

所述神经网络训练单元的训练模块中:将特征作为神经网络的输入,信号特征提取和语音活动检测模块中得到的语音活动检测结果作为输出目标训练神经网络,具体包括:根据预设的神经网络隐藏层神经元个数的范围,将从训练集中提取的特征作为神经网络的输入,对应训练集的语音活动检测结果作为神经网络的输出目标,计算神经网络的输出结果与输出目标之间的误差;通过误差反向传播算法持续调整神经网络的权值,直到误差小于预设的阈值或者训练次数达到预期最大迭代次数则停止神经网络的训练;然后使用验证集验证神经网络的结果,将从验证集中提取的特征作为神经网络的输入,神经网络的输出结果和对应验证集的语音活动检测结果进行比较,统计神经网络输出结果的正确率,如果正确率优于之前训练得到的结果,则记录此时的神经元个数;增加一个神经元重复上述的训练和验证步骤,直到到达设定神经元个数的上限,最后选取最优的结果对应的神经元个数,并记录此时神经网络内部的权值作为最终训练完毕的神经网络。