利索能及
我要发布
收藏
专利号: 2021107334677
申请人: 北京百度网讯科技有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-08
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种多模态识别模型的训练方法,包括:获取样本数据,所述样本数据包括第一图片数据和第一文本数据中的至少一项;

对所述样本数据进行识别,得到目标数据;

基于所述目标数据与所述样本数据之间的相似度,对所述多模态识别模型进行训练;

其中,所述目标数据包括如下至少一项:与所述第一图片数据对应的第二图片数据;

与所述第一文本数据对应的第二文本数据。

2.根据权利要求1所述的方法,其中,所述多模态识别模型包括文本识别模型和图片识别模型,所述对所述样本数据进行识别,生成目标数据,包括:在所述样本数据包括第一图片数据的情况下,基于所述图片识别模型对所述第一图片数据进行识别,得到第三文本数据;

基于所述文本识别模型对所述第三文本数据进行识别,得到所述第二图片数据;

所述基于所述目标数据与所述样本数据之间的相似度,对所述多模态识别模型进行训练,包括:

基于所述第二图片数据与所述第一图片数据之间的相似度,对所述文本识别模型和所述图片识别模型进行训练。

3.根据权利要求2所述的方法,其中,所述对所述文本识别模型和所述图片识别模型进行训练之后,所述方法还包括:基于所述图片识别模型对所述第二图片数据进行识别,得到第四文本数据;

基于所述文本识别模型对所述第四文本数据进行识别,得到第四图片数据;

基于所述第四图片数据与所述第二图片数据之间的相似度,对所述文本识别模型和所述图片识别模型进行训练。

4.根据权利要求1所述的方法,其中,所述多模态识别模型包括文本识别模型和图片识别模型,所述对所述样本数据进行识别,生成目标数据,包括:在所述样本数据包括第一文本数据的情况下,基于所述文本识别模型对所述第一文本数据进行识别,得到第三图片数据;

基于所述图片识别模型对所述第三图片数据进行识别,得到所述第二文本数据;

所述基于所述目标数据与所述样本数据之间的相似度,对所述多模态识别模型进行训练,包括:

基于所述第二文本数据与所述第一文本数据之间的相似度,对所述文本识别模型和所述图片识别模型进行训练。

5.根据权利要求4所述的方法,其中,所述对所述文本识别模型和所述图片识别模型进行训练之后,所述方法还包括:基于所述文本识别模型对所述第二文本数据进行识别,得到第五图片数据;

基于所述图片识别模型对所述第五图片数据进行识别,得到第五文本数据;

基于所述第五文本数据和所述第二文本数据之间的相似度,对所述文本识别模型和所述图片识别模型进行训练。

6.一种多模态识别方法,包括:获取待识别对象,所述待识别对象的表征形式为第一模态;

基于多模态识别模型对所述待识别对象进行识别,并获取所述多模态识别模型输出的识别结果,所述识别结果的表征形式为第二模态;

其中,所述多模态识别模型为根据权利要求1‑5中任一项所述的方法训练后的多模态识别模型,所述第一模态为图片或文本,所述第二模态为文本或图片,且所述第一模态不同于所述第二模态。

7.一种多模态识别模型的训练装置,包括:第一获取模块,用于获取样本数据,所述样本数据包括第一图片数据和第一文本数据中的至少一项;

识别模块,用于对所述样本数据进行识别,得到目标数据;

训练模块,用于基于所述目标数据与所述样本数据之间的相似度,对所述多模态识别模型进行训练;

其中,所述目标数据包括如下至少一项:与所述第一图片数据对应的第二图片数据;

与所述第一文本数据对应的第二文本数据。

8.根据权利要求7所述的装置,其中,所述多模态识别模型包括文本识别模型和图片识别模型,所述识别模块还用于:在所述样本数据包括第一图片数据的情况下,基于所述图片识别模型对所述第一图片数据进行识别,得到第三文本数据;

基于所述文本识别模型对所述第三文本数据进行识别,得到所述第二图片数据;

所述训练模块还用于:

基于所述第二图片数据与所述第一图片数据之间的相似度,对所述文本识别模型和所述图片识别模型进行训练。

9.根据权利要求8所述的装置,其中,所述识别模块还用于:基于所述图片识别模型对所述第二图片数据进行识别,得到第四文本数据;

基于所述文本识别模型对所述第四文本数据进行识别,得到第四图片数据;

所述训练模块还用于:基于所述第四图片数据与所述第二图片数据之间的相似度,对所述文本识别模型和所述图片识别模型进行训练。

10.根据权利要求7所述的装置,其中,所述多模态识别模型包括文本识别模型和图片识别模型,所述识别模块还用于:在所述样本数据包括第一文本数据的情况下,基于所述文本识别模型对所述第一文本数据进行识别,得到第三图片数据;

基于所述图片识别模型对所述第三图片数据进行识别,得到所述第二文本数据;

所述训练模块还用于:

基于所述第二文本数据与所述第一文本数据之间的相似度,对所述文本识别模型和所述图片识别模型进行训练。

11.根据权利要求10所述的装置,其中,所述识别模块还用于:基于所述文本识别模型对所述第二文本数据进行识别,得到第五图片数据;

基于所述图片识别模型对所述第五图片数据进行识别,得到第五文本数据;

所述训练模块还用于:基于所述第五文本数据和所述第二文本数据之间的相似度,对所述文本识别模型和所述图片识别模型进行训练。

12.一种多模态识别装置,包括:第二获取模块,用于获取待识别对象,所述待识别对象的表征形式为第一模态;

第三获取模块,用于基于多模态识别模型对所述待识别对象进行识别,并获取所述多模态识别模型输出的识别结果,所述识别结果的表征形式为第二模态;

其中,所述多模态识别模型为根据权利要求1‑5中任一项所述的方法训练后的多模态识别模型,所述第一模态为图片或文本,所述第二模态为文本或图片,且所述第一模态不同于所述第二模态。

13.一种电子设备,包括:

至少一个处理器;以及

与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1‑5中任一项所述的方法,或者执行权利要求6所述的方法。

14.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1‑5中任一项所述的方法,或者执行根据权利要求6所述的方法。

15.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1‑5中任一项所述的方法,或者实现根据权利要求6所述的方法。