1.一种结合视频信号的多通道卷积混叠语音信道估计方法,其特征在于,包括以下步骤:
采集多个说话人的视频数据,并剪辑出说话人嘴部区域的视频图像,构成视频数据库;
与此同时,录制每个说话人的语音信号,构建音频数据库;利用音频数据库合成多个多通道卷积混叠语音信号;
对说话人嘴部区域视频图像的向量化表示矩阵进行非负矩阵分解,分别得到图像特征矩阵和图像表示矩阵,表示为:
Vi=WiHi
其中,Vi表示说话人嘴部区域视频图像的向量化表示矩阵,图像特征矩阵为Wi=+ P×K + K×Q
[wi,1,...,wi,K]∈(R) ,图像表示矩阵为Hi=[hi,1,...,hi,Q]∈(R) ,其中,i表示第i个说话人,P为视频帧的总像素值,K为图像特征矩阵列数,Q为图像表示矩阵的列数,R为实数集,K<
对单个说话人的图像表示矩阵逐列进行密度聚类,搜寻出最大密度聚类中心,并设置阈值以获取最大密度聚类中心的近邻数据点下标集合,将其作为说话人嘴部保持静默状态数据集,将该数据集的补集作为该说话人发声状态数据集;对多个说话人的静默状态数据集、发声状态数据集进行联合交集运算,检测出单一说话人的局部主导集;
其中,对单个说话人的图像表示矩阵逐列进行密度聚类时,计算第i个说话人的局部密度值评价指标ρiq表示为:
其中,φi,qk定义为图像表示矩阵Hi特征列hi,q与hi,k之间的欧式距离, 为预先设置的欧式距离阈值;
根据单一说话人的局部主导集,分别计算出对应的时间窗口所对应的时频域二阶协方差矩阵序列 表示为:
其中g(Ψi)为单一说话人局部主导集Ψi转换为对应的语音时频帧集合时的映射函数;
从各阶协方差矩阵中以此提取主导特征向量,组成估计混叠信道。
2.如权利要求1所述的合视频信号的多通道卷积混叠语音信道估计方法,其特征在于,所述的采集多个说话人的视频数据,并剪辑出说话人嘴部区域的视频图像,构成视频数据库;与此同时,录制每个说话人的语音信号,构建音频数据库,包括:通过摄像机录制多个说话人正面说话视频,说话人念完每句时保持一定的停顿,剪辑出说话人嘴部区域视频图像,构成视频数据库;录制视频的同时,通过麦克风录制说话人的纯净语音信号,构建音频数据库。
3.如权利要求1所述的合视频信号的多通道卷积混叠语音信道估计方法,其特征在于,所述的设置阈值以获取最大密度聚类中心的近邻数据点下标集合,包括:设置距离阈值μ,将所有距离最大密度聚类中心低于阈值的图像表示向量数据点下标集合标记为Φi。
4.如权利要求1所述的合视频信号的多通道卷积混叠语音信道估计方法,其特征在于,所述的主导特征向量为最大特征值所对应的特征向量。