1.一种音频长时指纹提取方法,其特征在于:该提取方法包括以下步骤:S1:输入音频信号(PCM),并重采样音频信号;
S2:对重采样后的音频信号进行分帧、加窗以及DFT变化得到帧频谱;
S3:对帧频谱进行帧间平滑处理得到更新后的帧频谱;
S4:对更新后的帧频谱进行帧级短时特征提取;
S5:处理帧级短时特征,并提取帧组长时特征。
2.根据权利要求1所述的一种音频长时指纹提取方法,其特征在于:所述S1中,重采样的具体操作为提取110Hz‑7KHz频率范围作为分析频段,并根据奈奎斯特采样定理,设定输入信号重采样频率为16KHz,避免信号采样失真。
3.根据权利要求2所述的一种音频长时指纹提取方法,其特征在于:所述S2中,分帧、加窗以及DFT变化的具体操作为将重采样后的信号按照4096样本(256ms)以及50%重叠度进行分帧;分帧后,逐帧添加汉明窗以及进行DFT频域变换,得到帧频谱。
4.根据权利要求3所述的一种音频长时指纹提取方法,其特征在于:所述S3中,所述帧间平滑的具体操作为采用滑动窗口对相邻5帧频谱数据进行加权平均,得到更新后的帧频谱:M=0.25M1+0.75M2+M3+0.75M4+0.25M5;其中滑动窗口每次步进一帧。
5.根据权利要求4所述的一种音频长时指纹提取方法,其特征在于:所述S4中,帧级短时特征提取的具体操作步骤为:
A1:对数频率域子带划分帧频谱;
A2:计算子带平均谱能量;
A3:对子带谱能量L2正则化处理得到帧级短时特征。
6.根据权利要求5所述的一种音频长时指纹提取方法,其特征在于:所述A1中,对数频率域子带划分帧频谱即将帧频谱中的频率f转换为对数频率F=log2(f),在对数频率域,将目标频率范围log2(110)~log2(7000)划分为宽度相等的16个子带。
7.根据权利要求6所述的一种音频长时指纹提取方法,其特征在于:所述A2中,计算子带平均谱能量即对于每个音频帧,在16个频率子带上计算平均谱能量,从而形成16维向量。
8.根据权利要求7所述的一种音频长时指纹提取方法,其特征在于:所述A3中,子带谱能量L2正则化处理得到帧级短时特征即对得到的16维向量作L2正则化,即为该音频帧的短时特征,记作V。
9.根据权利要求8所述的一种音频长时指纹提取方法,其特征在于:所述S5中,帧组长时特征提取的具体操作为将连续固定数量音频组成帧组,在时间轴方向上将帧级短时特征进行再次DFT变化,并保留低频稳定分量,形成帧组长时特征。
10.一种音频长时指纹匹配方法,其特征在于:该匹配方法包括以下步骤:B1:将待匹配的2个音频文件或片段按帧组提取长时特征;
B2:对2个帧组长时特征进行帧组级匹配,并确定匹配关系。