利索能及
我要发布
收藏
专利号: 2021107401934
申请人: 平安科技(深圳)有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种社交图片文本识别方法,其特征在于,包括:获取社交图片的二维图像特征;

通过全局注意力交互机制对所述二维图像特征进行特征提取,得到二维视觉特征;

将所述二维视觉特征输入字符视觉特征模型,获得所述字符视觉特征模型输出的与所述二维视觉特征对应的一维字符视觉特征;

将所述一维字符视觉特征输入字符语义特征模型,获得所述字符语义特征模型得输出的与所述一维字符视觉特征对应的一维字符语义特征;

通过融合特征算法对所述一维字符视觉特征和所述一维字符语义特征进行动态融合处理,得到所述社交图片的字符信息。

2.如权利要求1所述的社交图片文本识别方法,其特征在于,所述通过全局注意力交互机制对所述二维图像特征进行特征提取,得到二维视觉特征,包括:对所述二维图像特征进行维度转换处理,得到与所述二维图像特征对应的一维图像特征,并记录所述二维图像特征与所述一维图像特征之间的位置编码;

将所述一维图像特征输入多头注意力机制,得到多头一维图像特征;

根据所述位置编码将所述多头一维特征图像进行维度转换处理,得到所述二维视觉特征。

3.如权利要求2所述的社交图片文本识别方法,其特征在于,将所述一维图像特征输入多头注意力机制,得到多头一维图像特征,包括:使用若干预设维度转化规则对所述一维图像特征进行处理,获得对应的若干一维向量,一个预设维度转化规则对应一个一维向量;

拼接所述若干一维向量,得到所述多头一维图像特征。

4.如权利要求1所述的社交图片文本识别方法,其特征在于,所述将所述二维视觉特征输入字符视觉特征模型,获得所述字符视觉特征模型输出的与所述二维视觉特征对应的一维字符视觉特征,包括:

通过字符视觉特征模型对所述二维视觉特征进行字符识别,获取所述二维视觉特征中字符的字符位置;

根据所述字符位置提取所述二维视觉特征的一维字符视觉特征。

5.如权利要求4所述的社交图片文本识别方法,其特征在于,所述字符视觉特征模型包括:

Vchart=softmax(Wv(LeakyRelu(Wqf(Rt)+WkV)))V其中,Vchart为一维字符视觉特征,V为所述二维视觉特征,Wv为Value向量,Wk为key向量,Wq为Query向量,f(Rt)为嵌入函数;

LeakyRelu(Wqf(Rt)+WkV)为激活函数;R为阅读顺序集合,R取值范围为(0,n),t为所述字符数量,t取值范围为(0,t)。

6.如权利要求1所述的社交图片文本识别方法,其特征在于,所述获取社交图片的二维图像特征,包括:

通过摄像头获取所述社交图片;

将所述社交图片输入预设网络进行预处理,得到所述社交图片的二维图像特征。

7.如权利要求1所述的社交图片文本识别方法,其特征在于,所述融合特征算法包括:Fchart=a′·Tchart+(1‑a′)·Vcharta′t=sigmoid(Wgt·(Vchart+Tchart))其中,Fchart为融合特征,a′为融合参数,t为所述字符数量,t取值范围为(0,t),Wgt为权重向量,Vchart为一维字符视觉特征,Tchart为一维字符语义特征。

8.如权利要求6所述的社交图片文本识别装置,其特征在于,包括:二维图像特征模块,用于获取社交图片的二维图像特征;

二维视觉特征模块,用于通过全局注意力交互机制对所述二维图像特征进行特征提取,得到二维视觉特征;

一维字符视觉特征模块,用于将所述二维视觉特征输入字符视觉特征模型,获得所述字符视觉特征模型输出的与所述二维视觉特征对应的一维字符视觉特征;

一维字符语义特征模块,用于所述一维字符视觉特征输入字符语义特征模型,获得所述字符语义特征模型得输出的与所述一维字符视觉特征对应的一维字符语义特征;

字符信息模块,用于通过融合特征算法对所述一维字符视觉特征和所述一维字符语义特征进行动态融合处理,得到所述社交图片的字符信息。

9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,其特征在于,所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述社交图片文本识别方法。

10.一个或多个存储有计算机可读指令的可读存储介质,所述计算机可读指令被一个或多个处理器执行时,使得所述一个或多个处理器执行如权利要求1至7中任一项所述社交图片文本识别方法。