利索能及
我要发布
收藏
专利号: 2025102984361
申请人: 临沧嘉儒璨科技有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2026-04-09
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于人工智能的文件传输方法,其特征在于,包括:识别发言人是否说出预设语句;

若识别出发言人说出预设语句,则获取发言人的发言视频、会议现场的全景图像;

基于所述发言人的发言视频使用发言视频处理模型确定发言人位置、发言人的面部朝向、发言人的手指指向、发言人的外表描述文字,发言人的外表描述文字是发言人所指会议人员的外表描述文字;

基于所述发言人位置、所述发言人的面部朝向、所述发言人的手指指向、所述会议现场的全景图像使用位置确定模型确定发言人所指位置;

控制摄像头对所述发言人所指位置进行拍照得到所指区域图像;

基于所述发言人的外表描述文字和所述所指区域图像使用人员图像匹配模型匹配出所指会议人员图像;

对所述所指会议人员图像进行人脸识别后确定所指会议人员身份信息;

获取发言人发送的文件;

基于所述所指会议人员身份信息,将所述发言人发送的文件传输给所指会议人员。

2.如权利要求1所述的基于人工智能的文件传输方法,其特征在于,所述方法还包括:若所述人员图像确定模型未匹配出所指会议人员图像,则控制摄像头缩小拍摄倍数到所指区域图像拍摄倍数的N倍,并获取摄像头的第二拍摄区域图像,其中N的数值在0‑1之间;

基于所述发言人的外表描述文字使用扩散模型生成发言人的外表描述图像,发言人的外表描述图像是发言人所指会议人员的外表描述图像;

基于所述摄像头的第二区域拍摄图像和所述发言人的外表描述图像确定出所指会议人员图像;

对所述所指会议人员图像进行人脸识别后确定所指会议人员身份信息;

获取发言人发送的文件;

基于所述所指会议人员身份信息,将所述发言人发送的文件传输给所指会议人员。

3.如权利要求1所述的基于人工智能的文件传输方法,其特征在于,所述发言视频处理模型为循环神经网络模型,所述发言视频处理模型的输入为所述发言人的发言视频,所述发言视频处理模型的输出为发言人位置、发言人的面部朝向、发言人的手指指向、发言人的外表描述文字。

4.如权利要求1所述的基于人工智能的文件传输方法,其特征在于,所述人员图像匹配模型为残差神经网络模型,所述人员图像匹配模型的输入为所述发言人的外表描述文字和所述所指区域图像,所述人员图像匹配模型的输出为所指会议人员图像或未匹配出所指会议人员图像。

5.如权利要求2所述的基于人工智能的文件传输方法,其特征在于,N的数值为0.5。

6.一种基于人工智能的文件传输系统,其特征在于,包括:识别模块,用于识别发言人是否说出预设语句:

第一获取模块,用于若识别出发言人说出预设语句,则获取发言人的发言视频、会议现场的全景图像;

发言视频处理模块,用于基于所述发言人的发言视频使用发言视频处理模型确定发言人位置、发言人的面部朝向、发言人的手指指向、发言人的外表描述文字,发言人的外表描述文字是发言人所指会议人员的外表描述文字;

位置确定模块,用于基于所述发言人位置、所述发言人的面部朝向、所述发言人的手指指向、所述会议现场的全景图像使用位置确定模型确定发言人所指位置;

拍照模块,用于控制摄像头对所述发言人所指位置进行拍照得到所指区域图像;

人员图像匹配模块,用于基于所述发言人的外表描述文字和所述所指区域图像使用人员图像匹配模型匹配出所指会议人员图像;

人脸识别模块,用于对所述所指会议人员图像进行人脸识别后确定所指会议人员身份信息;

第二获取模块,用于获取发言人发送的文件;

传输模块,用于基于所述所指会议人员身份信息,将所述发言人发送的文件传输给所指会议人员。

7.如权利要求6所述的基于人工智能的文件传输系统,其特征在于,所述系统还用于:若所述人员图像确定模型未匹配出所指会议人员图像,则控制摄像头缩小拍摄倍数到所指区域图像拍摄倍数的N倍,并获取摄像头的第二拍摄区域图像,其中N的数值在0‑1之间;

基于所述发言人的外表描述文字使用扩散模型生成发言人的外表描述图像,发言人的外表描述图像是发言人所指会议人员的外表描述图像;

基于所述摄像头的第二区域拍摄图像和所述发言人的外表描述图像确定出所指会议人员图像;

对所述所指会议人员图像进行人脸识别后确定所指会议人员身份信息;

获取发言人发送的文件;

基于所述所指会议人员身份信息,将所述发言人发送的文件传输给所指会议人员。

8.如权利要求6所述的基于人工智能的文件传输系统,其特征在于,所述发言视频处理模型为循环神经网络模型,所述发言视频处理模型的输入为所述发言人的发言视频,所述发言视频处理模型的输出为发言人位置、发言人的面部朝向、发言人的手指指向、发言人的外表描述文字。

9.如权利要求6所述的基于人工智能的文件传输系统,其特征在于,所述人员图像匹配模型为残差神经网络模型,所述人员图像匹配模型的输入为所述发言人的外表描述文字和所述所指区域图像,所述人员图像匹配模型的输出为所指会议人员图像或未匹配出所指会议人员图像。

10.如权利要求7所述的基于人工智能的文件传输系统,其特征在于,N的数值为0.5。