买专利、卖专利、专利购买、专利交易、专利出售、高企申报-多模态识别模型的训练方法、多模态识别方法及装置

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

多模态识别模型的训练方法、多模态识别方法及装置

￥25200

专利号： 2021107334677

申请人：北京百度网讯科技有限公司

专利类型：发明专利

专利状态：已下证

更新日期：2025-12-08

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种多模态识别模型的训练方法，包括：获取样本数据，所述样本数据包括第一图片数据和第一文本数据中的至少一项；

对所述样本数据进行识别，得到目标数据；

基于所述目标数据与所述样本数据之间的相似度，对所述多模态识别模型进行训练；

其中，所述目标数据包括如下至少一项：

与所述第一图片数据对应的第二图片数据；

与所述第一文本数据对应的第二文本数据；

所述多模态识别模型包括文本识别模型和图片识别模型，所述对所述样本数据进行识别，生成目标数据，包括：在所述样本数据包括第一图片数据的情况下，基于所述图片识别模型对所述第一图片数据进行识别，得到第三文本数据；

基于所述文本识别模型对所述第三文本数据进行识别，得到所述第二图片数据；

所述基于所述目标数据与所述样本数据之间的相似度，对所述多模态识别模型进行训练，包括：基于所述第二图片数据与所述第一图片数据之间的相似度，对所述文本识别模型和所述图片识别模型进行训练。

2.根据权利要求1所述的方法，其中，所述对所述文本识别模型和所述图片识别模型进行训练之后，所述方法还包括：基于所述图片识别模型对所述第二图片数据进行识别，得到第四文本数据；

基于所述文本识别模型对所述第四文本数据进行识别，得到第四图片数据；

基于所述第四图片数据与所述第二图片数据之间的相似度，对所述文本识别模型和所述图片识别模型进行训练。

3.根据权利要求1所述的方法，其中，所述对所述样本数据进行识别，生成目标数据，包括：在所述样本数据包括第一文本数据的情况下，基于所述文本识别模型对所述第一文本数据进行识别，得到第三图片数据；

基于所述图片识别模型对所述第三图片数据进行识别，得到所述第二文本数据；

所述基于所述目标数据与所述样本数据之间的相似度，对所述多模态识别模型进行训练，包括：基于所述第二文本数据与所述第一文本数据之间的相似度，对所述文本识别模型和所述图片识别模型进行训练。

4.根据权利要求3所述的方法，其中，所述对所述文本识别模型和所述图片识别模型进行训练之后，所述方法还包括：基于所述文本识别模型对所述第二文本数据进行识别，得到第五图片数据；

基于所述图片识别模型对所述第五图片数据进行识别，得到第五文本数据；

基于所述第五文本数据和所述第二文本数据之间的相似度，对所述文本识别模型和所述图片识别模型进行训练。

5.一种多模态识别方法，包括：

获取待识别对象，所述待识别对象的表征形式为第一模态；

基于多模态识别模型对所述待识别对象进行识别，并获取所述多模态识别模型输出的识别结果，所述识别结果的表征形式为第二模态；

其中，所述多模态识别模型为根据权利要求1‑4中任一项所述的方法训练后的多模态识别模型，所述第一模态为图片或文本，所述第二模态为文本或图片，且所述第一模态不同于所述第二模态。

6.一种多模态识别模型的训练装置，包括：第一获取模块，用于获取样本数据，所述样本数据包括第一图片数据和第一文本数据中的至少一项；

识别模块，用于对所述样本数据进行识别，得到目标数据；

训练模块，用于基于所述目标数据与所述样本数据之间的相似度，对所述多模态识别模型进行训练；

其中，所述目标数据包括如下至少一项：

与所述第一图片数据对应的第二图片数据；

与所述第一文本数据对应的第二文本数据；

所述多模态识别模型包括文本识别模型和图片识别模型，所述识别模块还用于：在所述样本数据包括第一图片数据的情况下，基于所述图片识别模型对所述第一图片数据进行识别，得到第三文本数据；

基于所述文本识别模型对所述第三文本数据进行识别，得到所述第二图片数据；

所述训练模块还用于：

基于所述第二图片数据与所述第一图片数据之间的相似度，对所述文本识别模型和所述图片识别模型进行训练。

7.根据权利要求6所述的装置，其中，所述识别模块还用于：基于所述图片识别模型对所述第二图片数据进行识别，得到第四文本数据；

基于所述文本识别模型对所述第四文本数据进行识别，得到第四图片数据；

所述训练模块还用于：基于所述第四图片数据与所述第二图片数据之间的相似度，对所述文本识别模型和所述图片识别模型进行训练。

8.根据权利要求6所述的装置，其中，所述识别模块还用于：在所述样本数据包括第一文本数据的情况下，基于所述文本识别模型对所述第一文本数据进行识别，得到第三图片数据；

基于所述图片识别模型对所述第三图片数据进行识别，得到所述第二文本数据；

所述训练模块还用于：

基于所述第二文本数据与所述第一文本数据之间的相似度，对所述文本识别模型和所述图片识别模型进行训练。

9.根据权利要求8所述的装置，其中，所述识别模块还用于：基于所述文本识别模型对所述第二文本数据进行识别，得到第五图片数据；

基于所述图片识别模型对所述第五图片数据进行识别，得到第五文本数据；

所述训练模块还用于：基于所述第五文本数据和所述第二文本数据之间的相似度，对所述文本识别模型和所述图片识别模型进行训练。

10.一种多模态识别装置，包括：

第二获取模块，用于获取待识别对象，所述待识别对象的表征形式为第一模态；

第三获取模块，用于基于多模态识别模型对所述待识别对象进行识别，并获取所述多模态识别模型输出的识别结果，所述识别结果的表征形式为第二模态；

11.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1‑4中任一项所述的方法，或者执行权利要求5所述的方法。

12.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1‑4中任一项所述的方法，或者执行根据权利要求5所述的方法。

13.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1‑4中任一项所述的方法，或者实现根据权利要求5所述的方法。

推荐专利

人脸识别模型的训练方法和装置

发明专利

￥20400

地基云图识别模型训练方法及地基云图识别方法

发明专利

￥27600

一种性别识别模型训练方法和装置及性别识别方法和装置

发明专利

￥14400

表情识别模型及训练方法、识别方法、装置和计算设备

发明专利

￥27600

我要求购

您有专利需要变现?

我要出售

智能匹配需求，快速出售

摘要:

权利要求书:

利索能及

友情链接

关于我们

联系我们