利索能及
我要发布
收藏
专利号: 2017101398804
申请人: 南京信息工程大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-30
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种改进的非线性自适应语音端点检测方法,其特征在于,所述方法包括首先通过麦克风阵收集收集信号以及通过时延估计和时延补偿使输入信号同步,之后通过Legendre非线性滤波器把输入信号拓展为高维度函数,再通过回声消除NLMS算法进行降噪处理,所述回声消除NLMS算法中对迭代步长进行分段处理,再通过谱减法进行语音增强,最后通过能熵对语音端点检测。

2.根据权利要求1所述的改进的非线性自适应语音端点检测方法,其特征在于,具体步骤如下:

步骤一,对麦克风阵列接收到的带噪语音信号X(n)=A(q)S(n)+N(n)进行时延估计和时延补偿,使各个麦克风通道中的信号在时间上是一致的,对齐后的带噪语音信号X(n)=[x1(n),x2(n)…xd(n)]T,其中,θ为目标信号的来波方向,A(θ)为目标信号的阵列流型,S(n)为目标语音信号,N(n)为方向性干扰噪声或是随机噪声;

步骤二,把输入信号通过反正切激活函数tanh(·),使同步后的信号映射为(0,1)范围内的单值函数,这样能满足Legendre非线性滤波器的收敛条件,通过此函数之后的信号为Z(n)=[z1(n),z2(n)…zd(n)]T=[tanh(x1(n)),tanh(x2(n))…tanh(xd(n))]T;

步骤三,利用Legendre非线性滤波器对信号Z(n)进行扩展,输入信号向量Z(n)经Legendre非线性滤波器非线性扩展为XM(n)=[L0(z1(n)),L0(z2(n))…L0(zd(n))…Li(z1(n)),Li(z2(n))…LM(z1(n))…LM(zd(n))]TLi(x)为第i阶Legendre非线性滤波器;由于L0(x)=1,所有的0阶扩展可合并为一个输入量如下式XM(n)=[1…Li(z1(n)),Li(z2(n))…LM(z1(n))…LM(zd(n))]T滤波器输出为式中权值矢量定义为B(n)=[b0(n),b11(n)…b1d(n),…bM1(n),…bMd(n)]Tbij(n)对应的是Legendre非线性滤波器Li(zj(n))的权值,i=1,2,…M,j=1,2,…d;

步骤四,采用回声消除NLMS算法对自适应滤波器权值进行更新,该算法中对迭代步长进行分段处理;

式中mc是迭代步长,通过这种方式来提高整体算法的收敛速度,在200次迭代之后获得更加好的收敛精度,由此提高整个系统的收敛性和稳态失调噪声;由回声消除NLMS算法可导出滤波器权值系数递推公式为式中误差估计e(n)=d(n)-y1(n),其中d(n)为期望信号即纯净人声语音信号,XM(n)为麦克风阵列瞬时接收到的语音信号,g是为了避免 过小而设定的参数,通常情况下的取值范围是0和1之间;

步骤五,为了进一步去除可能存在的残余噪声,在输出信号y1(n)后续衔接谱减法进行降噪处理;利用以下方法来估计噪声的功率:其中0<σ<1,K是带噪语音总帧数,得到的每帧纯净语音功率为:

其中,α>1,β<<1,在噪声段保留一定的噪声可以取得较好的降噪及抑制纯音噪声的效果,降低“音乐”噪声的产生,改善听觉效果,经过谱减,平滑滤波之后的信号为y2(n);

步骤六,语音信号的时间序列为y2(n),加窗分帧后处理得到第i帧语音信号为y2i(n),帧长为N,语音信号的每一帧能量可以表示为所述能量关系表示为

LEi=log10(1+AMPi/a)

其中AMPi是每一帧的能量,a是一个常数,由于有a的存在,当其取较大数值时,能幅值得以缓和,所以适当选择a的值能够更好地区分噪音和清音,能熵比则可表示为之后通过能熵比算出经过谱减后y2(n)的能熵比幅值图,通过计算出的值来设置对应的阈值T1和T2,T1为较高阈值,只要能熵比超过了此阈值就判定这段语音是人声点dst1,然后以这个点为中心向两边扩展搜索T1与此段语音的相交的两个点,粗判为此段语音的起止点,然后再想两边扩展搜索,知道检测到较低阈值T2与此段语音相交的两个点,由于考虑到发音时词与词之间的静音区会有一个最小长度表示发音间的停顿于是在满足T2较小阈值之后加上这个最小长度,最终判定为此段语音的起止点。

3.根据权利要求1所述的改进的非线性自适应语音端点检测方法,其特征在于,所述步骤三中的Legendre非线性滤波器中扩展的阶数为i=4阶。