1.一种基于多模态的会议发言人身份无感确认方法,其特征在于:是通过对发言人的表情、声音及讲话风格三个方面进行自动识别区分会议发言人的方法,其中,包括基于深度学习模型的表情识别方法、基于人工智能算法的声音识别方法、基于文本聚类算法的讲话内容识别方法;
其中声音识别方法的具体步骤为:
(1)数据采集及处理
实时采集会议现场语音数据,并将数据间隔4‑8秒分段,每一段作为一个处理单元且对数据进行除噪处理;
(2)构建模型及训练
假设训练数据语音中有多个人多条语音,其中定义第i个人的第j条语音为Xij,构建模型为:Xij=μ+Fhi+Gwij+∈ij,其中μ为数据均值,Fhi和Gwij为空间特征矩阵,∈ij为噪声协方差;构建后,训练过程采用EM算法迭代进行求解;
(3)模型测试
计算两条语音是否为同一说话人是由说话人空间中的特征hi生成,或者由hi生成的似然程度通过对数似然比score来计算得分生成,计算公式如下:其中η1,η2表示两条测试语音, 和 分别表示两条测试语音来自同一空间和来自不同空间假设; 表示η1,η2来自同一空间的概率; 和 分别表示η1,η2属于各自不同空间的概率。
2.根据权利要求1所述的基于多模态的会议发言人身份无感确认方法,其特征在于:在基于深度学习模型的表情识别方法中,首先采集会议现场发言人脸部照片信息,通过信息预处理包括随机干扰、变形、旋转,再利用Gan网络生成多组训练集,接着采用Faster R‑Cnn模型训练样本数据,最终生成深度学习模型。
3.根据权利要求1所述的基于多模态的会议发言人身份无感确认方法,其特征在于:采用文本聚类算法对于讲话内容进行识别方法,包括句子向量表示和文本聚类两部分,先进行所有句子向量表示,再通过DBSCAN算法对所有的句子向量表示进行文本聚类。
4.根据权利要求3所述的基于多模态的会议发言人身份无感确认方法,其特征在于:采mn用word2vec工具的Skip‑gram模型对文本进行词向量训练,组成词向量矩阵X∈R ,以xi∈mR表示特征词i在m维空间中的词向量,且表达两个向量之间的欧式距离,公式为:d(wi,wj)=|xi‑xj|2,其中d(wi,wj)表示特征词i和特征词j的语义距离;xi和xj表示特征词wi和wj对应的词向量。
5.根据权利要求4所述的基于多模态的会议发言人身份无感确认方法,其特征在于:Skip‑gram模型包括输入层、投影层和输出层;其中,输入层为当前特征词,词向量记为Wt∈mR,输出层为该特征词上下文窗口中词出现的概率;投影层用于使目标函数L值最大化。
6.根据权利要求5所述的基于多模态的会议发言人身份无感确认方法,其特征在于:假定有一组词序列w1,w2,…,wN,目标函数的公式记为:其中,N为词序列的长度;c表示当前特征词的上下文长度,长度为5~10个词长度;p(wj+1|wj)为已知当前词wj出现的概率下,其上下文特征词wj+1出现的概率。
7.根据权利要求3所述的基于多模态的会议发言人身份无感确认方法,其特征在于:通过DBSCAN算法对所有的句子向量表示进行文本聚类时,在已知发言人的人数下,通过调整该算法的参数半径和最少点个数值来得到对应发言人数的簇数,获得对应的文本簇,再将不同发言人的讲话内容分隔开。