1.一种基于人工智能的多媒体会议室音响系统,其特征在于,包括:人员定位模块,用于基于采集的图像数据,对图像数据执行人脸识别与头部姿态估计,生成各参会人员身份标识与对应空间位置;
麦克风关联模块,用于基于所述空间位置与会议室麦克风布局关系,构建参会人员与麦克风通道之间的临时关系表;
主发言初定模块,用于对各麦克风通道采集的音频数据进行语音活动频率检测,并根据所述临时关系表确定主发言通道与对应人员身份标识;
音响输出模块,用于对所述主发言通道,执行通道增益维持处理,对其余通道执行增益抑制处理,得到当前有效音频信号集,并将所述有效音频信号集作为会议室扬声器输出音频信号进行音响输出;
交互特征提取模块,用于基于主发言通道与对应人员身份标识,对所述图像数据中主发言通道的人员区域进行视线方向、头部朝向与手部动作的行为特征提取,生成行为特征集;对有效发言音频信号集执行语音识别与语义解析处理,提取当前发言内容的交互意图;
主发言通道更新模块,用于根据所述行为特征集与交互意图,通过强化学习模型预测下一发言人员并根据临时关系表更新主发言通道,根据实际发言反馈结果计算奖励值,通过奖励值更新所述强化学习模型的策略参数。
2.根据权利要求1所述的一种基于人工智能的多媒体会议室音响系统,其特征在于,所述人员定位模块用于执行以下步骤:基于采集的图像数据,对图像数据执行人脸检测处理,得到图像帧中所有参会人员的人脸区域集合;
基于所述人脸区域集合,执行时序跟踪处理,按照帧序列为每一人脸区域分配唯一临时标识,得到参会人员身份标识与图像位置对;
根据所述图像位置,对每一人脸区域执行头部姿态估计处理,得到各标识对应的头部姿态参数,并结合图像位置过滤视角偏离阈值之外的无效人脸,得到姿态修正后的人脸空间投影参数集;
根据所述人脸空间投影参数集与摄像头标定参数,对各标识的人脸中心点与朝向信息进行三维映射,得到各参会人员身份标识与对应空间位置。
3.根据权利要求1所述的一种基于人工智能的多媒体会议室音响系统,其特征在于,所述麦克风关联模块用于执行以下步骤:基于会议室麦克风的预设空间位置,对人员定位模块输出的参会人员身份标识与对应空间位置执行欧式距离计算处理,得到每个参会人员与所有麦克风之间的距离集合;
基于所述距离集合,执行空间距离阈值筛选与最小距离优先匹配,确定每个参会人员与麦克风通道的临时绑定关系;
根据所述临时绑定关系,构建实时更新的临时关系表。
4.根据权利要求1所述的一种基于人工智能的多媒体会议室音响系统,其特征在于,所述主发言初定模块用于执行以下步骤:基于各麦克风通道采集的音频数据,对音频数据执行分帧加窗处理,并对每一帧音频数据计算短时能量,得到各麦克风通道对应的短时能量序列;
对所述短时能量序列,执行能量阈值比较与活动帧比例计算处理,得到各麦克风通道的实时语音活动频率;
基于所述实时语音活动频率,确定最高实时语音活动频率的麦克风通道为主发言通道,并基于临时关系表确定所述主发言通道对应的人员身份标识。
5.根据权利要求4所述的一种基于人工智能的多媒体会议室音响系统,其特征在于,所述音响输出模块用于执行以下步骤:根据主发言通道音频信号的短时能量计算当前帧的主通道增益系数;
对非主发言通道的音频信号,逐帧执行短时能量分析,计算非主发言通道音频信号与主发言通道音频信号之间的短时能量比值,并根据所述短时能量比值确定非主发言通道对应的实时衰减系数;
基于所述主通道的增益系数与非主通道的实时衰减系数,执行各通道音频信号的逐帧加权叠加,得到融合后的有效音频信号集,并输出至扬声器进行音响输出。
6.根据权利要求1所述的一种基于人工智能的多媒体会议室音响系统,其特征在于,所述基于主发言通道与对应人员身份标识,对所述图像数据中主发言通道的人员区域进行视线方向、头部朝向与手部动作的行为特征提取,生成行为特征集包括以下步骤:基于主发言通道对应的人员身份标识,从图像数据中提取当前帧中该人员的图像区域,对图像区域执行人脸关键点与手部关键点定位,得到标准关键点坐标集;
基于所述关键点坐标集,构建融合头部姿态、视线方向与手部动作的二维行为特征矩阵,所述二维行为特征矩阵的每一行表示一帧中各类关键点的空间位置与相对关系,每一列对应不同类别的动作维度信息;
将所述二维行为特征矩阵输入包含残差连接结构的多层残差神经网络中,依次执行局部感知编码与时间步残差信息融合,输出包含动作趋势与交互模式表征的中间行为嵌入表示;
对所述中间行为嵌入表示执行全连接映射与维度压缩处理,生成统一结构的行为特征向量作为行为特征集输出。
7.根据权利要求6所述的一种基于人工智能的多媒体会议室音响系统,其特征在于,所述对有效发言音频信号集执行语音识别与语义解析处理,提取当前发言内容的交互意图包括:对主发言通道对应的音频信号执行语音预处理与特征编码,并输入至Transformer语音识别模型,输出当前发言的文本转写结果;
对所述文本转写结果执行命名实体识别与角色指代消解,提取出发言中出现的参会人员姓名或称谓,并与人员定位模块生成的身份标识集合进行匹配,得到交互指向的目标身份;
基于所述文本内容,构建词向量序列并输入至语义解析网络,提取当前发言中的交互类型标签与意图核心短语,得到当前发言对应的交互目的;
将目标身份与交互目的融合构建交互意图向量。
8.根据权利要求7所述的一种基于人工智能的多媒体会议室音响系统,其特征在于,所述语音预处理包括噪声抑制、静音段剔除与频谱归一化。
9.根据权利要求7所述的一种基于人工智能的多媒体会议室音响系统,其特征在于,所述强化学习模型通过以下步骤构建:基于行为特征集与互意图向量,构建用于描述当前会议状态的状态向量;
基于所述人员定位模块生成的身份标识集合,建立以各参会人员身份为离散动作的动作空间;
根据强化学习动作输出与实际下一发言人员身份之间的匹配情况,通过奖励函数计算奖励值;
将所述状态向量输入至策略网络执行前向计算,输出动作空间内每一候选动作对应的概率分布,并基于所述奖励值,通过策略梯度算法计算网络参数的梯度值,根据梯度值更新所述策略网络的权重参数。
10.根据权利要求9所述的一种基于人工智能的多媒体会议室音响系统,其特征在于,所述奖励函数的公式如下:;
其中, 为第i次决策的即时奖励; 为第i次决策后实际发生的发言人员身份标识;
为第i次决策中强化学习模型输出的最高概率候选发言人员身份标识; 为匹配函数;
为在状态 下模型对实际发生的发言人员身份标识 给出的策略网络概率分布值; 和 为权重参数。