1.一种人群社会关系提取方法,其特征在于,包括以下步骤:
S1、给定一个元组(s,h,t,gh,gt),其中s代表文本信息,h表示头部实体,t表示尾部实体,gh表示包含头部实体的面部图像,gt表示包含尾部实体的面部图像;所述头部实体指参照者,所述尾部实体指需要判断的与参照者存在社会关系的人;
S2、使用预训练的语言模型提取所述文本信息的特征向量,得到文本特征向量;对所述头部实体的面部图像和尾部实体的面部图像进行编码,得到编码后的特征向量;
S3、利用跨模态编码器融合所述文本特征向量和编码后的特征向量,所述跨模态特征编码器包括六个卷积模块和两个全连接层,最后一个全连接层输出特征融合所需要的权重参数,将文本特征向量和编码后的面部特征向量进行集成,即首先将文本特征和面部特征进行融合,然后对融合的特征进行归一化处理以避免梯度消失或爆炸;对融合后的特征进行归一化处理后得到特征X,特征X的表达式为:X=LayerNorm[O],wi代表为每个输入增加的一个额外的权重,Ii包括文本特征和面部
图像特征,LayerNorm表示标准化操作;
S4、将归一化后的特征作为跨域少样本模块的输入,预测所述文本信息和面部图像之间的社会关系,将概率最大的社会关系作为输出结果。
2.根据权利要求1所述的人群社会关系提取方法,其特征在于,步骤S2中,所述预训练的语言模型为Bert模型。
3.根据权利要求1所述的人群社会关系提取方法,其特征在于,步骤S2中,编码后的特征向量的获取过程包括:对于一张包含两个存在社会关系的人的图片,提取图片中头部实体的面部图像和尾部实体的面部图像;
将头部实体的面部图像和尾部实体的面部图像输入FaceNet网络,得到编码后的特征向量。
4.根据权利要求1所述的人群社会关系提取方法,其特征在于,所述跨模态编码器包括多个级联的卷积模块,最后一个卷积模块与至少一个级联的全连接层连接。
5.根据权利要求1所述的人群社会关系提取方法,其特征在于,步骤S4中,对所述跨域少样本模块的输出进行N way K shot设置,预测所述文本信息和面部图像之间的社会关系。
6.一种终端设备,包括存储器、处理器及存储在存储器上的计算机程序;其特征在于,所述处理器执行所述计算机程序,以实现权利要求1~5之一所述方法的步骤。
7.一种计算机可读存储介质,其上存储有计算机程序/指令;其特征在于,所述计算机程序/指令被处理器执行时实现权利要求1~5之一所述方法的步骤。