1.一种多模态识别模型的训练方法,包括:获取样本数据,所述样本数据包括第一图片数据和第一文本数据中的至少一项;
对所述样本数据进行识别,得到目标数据;
基于所述目标数据与所述样本数据之间的相似度,对所述多模态识别模型进行训练;
其中,所述目标数据包括如下至少一项:与所述第一图片数据对应的第二图片数据;
与所述第一文本数据对应的第二文本数据。
2.根据权利要求1所述的方法,其中,所述多模态识别模型包括文本识别模型和图片识别模型,所述对所述样本数据进行识别,生成目标数据,包括:在所述样本数据包括第一图片数据的情况下,基于所述图片识别模型对所述第一图片数据进行识别,得到第三文本数据;
基于所述文本识别模型对所述第三文本数据进行识别,得到所述第二图片数据;
所述基于所述目标数据与所述样本数据之间的相似度,对所述多模态识别模型进行训练,包括:
基于所述第二图片数据与所述第一图片数据之间的相似度,对所述文本识别模型和所述图片识别模型进行训练。
3.根据权利要求2所述的方法,其中,所述对所述文本识别模型和所述图片识别模型进行训练之后,所述方法还包括:基于所述图片识别模型对所述第二图片数据进行识别,得到第四文本数据;
基于所述文本识别模型对所述第四文本数据进行识别,得到第四图片数据;
基于所述第四图片数据与所述第二图片数据之间的相似度,对所述文本识别模型和所述图片识别模型进行训练。
4.根据权利要求1所述的方法,其中,所述多模态识别模型包括文本识别模型和图片识别模型,所述对所述样本数据进行识别,生成目标数据,包括:在所述样本数据包括第一文本数据的情况下,基于所述文本识别模型对所述第一文本数据进行识别,得到第三图片数据;
基于所述图片识别模型对所述第三图片数据进行识别,得到所述第二文本数据;
所述基于所述目标数据与所述样本数据之间的相似度,对所述多模态识别模型进行训练,包括:
基于所述第二文本数据与所述第一文本数据之间的相似度,对所述文本识别模型和所述图片识别模型进行训练。
5.根据权利要求4所述的方法,其中,所述对所述文本识别模型和所述图片识别模型进行训练之后,所述方法还包括:基于所述文本识别模型对所述第二文本数据进行识别,得到第五图片数据;
基于所述图片识别模型对所述第五图片数据进行识别,得到第五文本数据;
基于所述第五文本数据和所述第二文本数据之间的相似度,对所述文本识别模型和所述图片识别模型进行训练。
6.一种多模态识别方法,包括:获取待识别对象,所述待识别对象的表征形式为第一模态;
基于多模态识别模型对所述待识别对象进行识别,并获取所述多模态识别模型输出的识别结果,所述识别结果的表征形式为第二模态;
其中,所述多模态识别模型为根据权利要求1‑5中任一项所述的方法训练后的多模态识别模型,所述第一模态为图片或文本,所述第二模态为文本或图片,且所述第一模态不同于所述第二模态。
7.一种多模态识别模型的训练装置,包括:第一获取模块,用于获取样本数据,所述样本数据包括第一图片数据和第一文本数据中的至少一项;
识别模块,用于对所述样本数据进行识别,得到目标数据;
训练模块,用于基于所述目标数据与所述样本数据之间的相似度,对所述多模态识别模型进行训练;
其中,所述目标数据包括如下至少一项:与所述第一图片数据对应的第二图片数据;
与所述第一文本数据对应的第二文本数据。
8.根据权利要求7所述的装置,其中,所述多模态识别模型包括文本识别模型和图片识别模型,所述识别模块还用于:在所述样本数据包括第一图片数据的情况下,基于所述图片识别模型对所述第一图片数据进行识别,得到第三文本数据;
基于所述文本识别模型对所述第三文本数据进行识别,得到所述第二图片数据;
所述训练模块还用于:
基于所述第二图片数据与所述第一图片数据之间的相似度,对所述文本识别模型和所述图片识别模型进行训练。
9.根据权利要求8所述的装置,其中,所述识别模块还用于:基于所述图片识别模型对所述第二图片数据进行识别,得到第四文本数据;
基于所述文本识别模型对所述第四文本数据进行识别,得到第四图片数据;
所述训练模块还用于:基于所述第四图片数据与所述第二图片数据之间的相似度,对所述文本识别模型和所述图片识别模型进行训练。
10.根据权利要求7所述的装置,其中,所述多模态识别模型包括文本识别模型和图片识别模型,所述识别模块还用于:在所述样本数据包括第一文本数据的情况下,基于所述文本识别模型对所述第一文本数据进行识别,得到第三图片数据;
基于所述图片识别模型对所述第三图片数据进行识别,得到所述第二文本数据;
所述训练模块还用于:
基于所述第二文本数据与所述第一文本数据之间的相似度,对所述文本识别模型和所述图片识别模型进行训练。
11.根据权利要求10所述的装置,其中,所述识别模块还用于:基于所述文本识别模型对所述第二文本数据进行识别,得到第五图片数据;
基于所述图片识别模型对所述第五图片数据进行识别,得到第五文本数据;
所述训练模块还用于:基于所述第五文本数据和所述第二文本数据之间的相似度,对所述文本识别模型和所述图片识别模型进行训练。
12.一种多模态识别装置,包括:第二获取模块,用于获取待识别对象,所述待识别对象的表征形式为第一模态;
第三获取模块,用于基于多模态识别模型对所述待识别对象进行识别,并获取所述多模态识别模型输出的识别结果,所述识别结果的表征形式为第二模态;
其中,所述多模态识别模型为根据权利要求1‑5中任一项所述的方法训练后的多模态识别模型,所述第一模态为图片或文本,所述第二模态为文本或图片,且所述第一模态不同于所述第二模态。
13.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1‑5中任一项所述的方法,或者执行权利要求6所述的方法。
14.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1‑5中任一项所述的方法,或者执行根据权利要求6所述的方法。
15.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1‑5中任一项所述的方法,或者实现根据权利要求6所述的方法。