利索能及
我要发布
收藏
专利号: 2021108576692
申请人: 北京工业大学
专利类型:发明专利
专利状态:授权未缴费
更新日期:2025-02-06
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于深度多流神经网络的图像分类方法,其特征在于,所述深度多流神经网络包括至少两个网络分支,每个所述网络分支对应一种标签,所述方法包括:获取特定领域的待分类图像以及所述待分类图像对应的文本数据;其中,特定领域的待分类图像为非自然图像,待分类图像与文本数据具有一定的相关性,文本数据至少能够描述待分类图像的一个特征;

提取所述待分类图像的图像特征;

提取所述待分类图像对应的文本数据的语义特征;

将所述图像特征和所述语义特征,输入所述至少两个网络分支,获得各所述网络分支分别对应的分类阈值;

基于所述分类阈值,确定所述待分类图像的标签;所述待分类图像的标签生成过程如下:得到全连接层输出的分类阈值后,确定分类阈值大于预设阈值时对应的网络分支的标签,将确定的标签作为待分类图像的标签;

预先构建深度多流神经网络,所述深度多流神经网络包括三个网络分支:其中,三个网络分支分别为:第一网络分支、第二网络分支和第三网络分支,第一网络分支对应第一标签、第二网络分支对应第二标签和第三网络分支对应第三标签;每个分支网络代表着每个特定分类任务的特征学习过程;

其中,深度多流神经网络的一个关键操作是通过并行CNN更新损失函数来完成多分类结果的逻辑计算;

Softmax损失函数常用于多任务分类,是Softmax函数和交叉熵损失函数的结合,计算见公式(1):其中,i指的分支网络的编号;xi指的是输入向量;yi指的是第i个编号对应的实际值;当yi等于1时,代入Softmax函数后见公式(2):对于这个损失函数,编码格式是One‑Hot码,即每个目标向量中只允许一位为1,其余位必须为0;实验中的样本有多个标签,需要使用多重编码,多重编码中目标向量的每一位代表一种属性;当样本包含多个属性时,向量中对应属性的位标记为1,否则为0;为了适应多种编码模式,通过网络利用Sigmoid交叉熵损失函数作为优化损失函数,见公式(3):其中,i指的分支网络的编号;xi指的是输入向量;yi指的是第i个编号对应的实际值;

其中f(·)表示Sigmoid函数,见公式(4):

其中,i指的分支网络的编号;xi指的是输入向量;然后将Sigmoid函数代入公式(3),可以得到L(x),见公式(5):其中,i指的分支网络的编号;xi指的是输入向量;yi指的是第i个编号对应的实际值;

Sigmoid交叉熵损失函数可以计算每个目标的二元交叉熵损失,使得每个标签的概率值接近其实际值0或1;将每个标签的阈值设置为0.5,如果超过0.5,则选择当前标签作为分类。

2.根据权利要求1所述的基于深度多流神经网络的图像分类方法,其特征在于,所述深度多流神经网络还包括:卷积层,所述卷积层包括:第一支路、第二支路和第三支路;

所述提取所述待分类图像的图像特征,包括:

利用所述第一支路,提取所述待分类图像的全局特征;

利用所述第二支路和所述第三支路,提取所述待分类图像的局部特征;

融合所述全局特征和所述局部特征,得到所述待分类图像的图像特征。

3.根据权利要求2所述的基于深度多流神经网络的图像分类方法,其特征在于,所述提取所述待分类图像对应的文本数据的语义特征,包括:将所述文本数据在预先建立的语义知识库中进行匹配,得到能够匹配成功的数据;

确定所述匹配成功的数据在所述文本数据中的上下文信息;

基于所述匹配成功的数据和所述上下文信息,得到所述文本数据的语义特征。

4.根据权利要求3所述的基于深度多流神经网络的图像分类方法,其特征在于,所述深度多流神经网络还包括:全连接层;

所述将所述图像特征和所述语义特征,输入所述至少两个网络分支,获得各所述网络分支分别对应的分类阈值,包括:将所述图像特征和所述语义特征,输入所述全连接层,得到所述图像特征和所述语义特征融合后的融合特征;

将所述融合特征输入所述至少两个网络分支,得到所述分类阈值。

5.根据权利要求4所述的基于深度多流神经网络的图像分类方法,其特征在于,所述图像特征为高维图像特征,所述语义特征为离散值;

所述将所述图像特征和所述语义特征,输入所述全连接层,得到所述图像特征和所述语义特征融合后的融合特征,包括:将所述图像特征和所述语义特征,输入所述全连接层,通过所述全连接层对所述高维图像特征进行降维处理,得到一维图像特征,以及对所述离散值进行编码处理,得到一维语义特征,拼接所述一维图像特征和所述一维语义特征,得到所述融合特征。

6.根据权利要求2所述的基于深度多流神经网络的图像分类方法,其特征在于,所述利用所述第一支路,提取所述待分类图像的全局特征,包括:利用所述第一支路,依次对所述待分类图像进行第一卷积操作、第一激活操作和第一池化操作,得到所述全局特征;

所述利用所述第二支路和所述第三支路,提取所述待分类图像的局部特征,包括:利用所述第二支路,依次对所述待分类图像进行第二卷积操作、第二激活操作和第二池化操作,得到第一局部特征;

利用所述第三支路,依次对所述待分类图像进行第三卷积操作和第三激活操作,得到第二局部特征;

所述融合所述全局特征和所述局部特征,得到所述待分类图像的图像特征,包括:融合所述全局特征、所述第一局部特征和所述第二局部特征,得到所述待分类图像的图像特征。

7.一种基于深度多流神经网络的图像分类装置,其特征在于,所述深度多流神经网络包括至少两个网络分支,每个所述网络分支分别对应一种分类标签,所述装置包括:获取模块,用于获取特定领域的待分类图像以及所述待分类图像对应的文本数据;其中,特定领域的待分类图像为非自然图像,待分类图像与文本数据具有一定的相关性,文本数据至少能够描述待分类图像的一个特征;

第一提取模块,用于提取所述待分类图像的图像特征;

第二提取模块,用于提取所述待分类图像对应的文本数据的语义特征;

获得模块,用于将所述图像特征和所述语义特征,输入所述至少两个网络分支,获得各所述网络分支分别对应的分类阈值;

确定模块,用于基于所述分类阈值,确定所述待分类图像的标签;所述待分类图像的标签生成过程如下:得到全连接层输出的分类阈值后,确定分类阈值大于预设阈值时对应的网络分支的标签,将确定的标签作为待分类图像的标签;

预先构建深度多流神经网络,所述深度多流神经网络包括三个网络分支:其中,三个网络分支分别为:第一网络分支、第二网络分支和第三网络分支,第一网络分支对应第一标签、第二网络分支对应第二标签和第三网络分支对应第三标签;每个分支网络代表着每个特定分类任务的特征学习过程;

其中,深度多流神经网络的一个关键操作是通过并行CNN更新损失函数来完成多分类结果的逻辑计算;

Softmax损失函数常用于多任务分类,是Softmax函数和交叉熵损失函数的结合,计算见公式(1):其中,i指的分支网络的编号;xi指的是输入向量;yi指的是第i个编号对应的实际值;当yi等于1时,代入Softmax函数后见公式(2):对于这个损失函数,编码格式是One‑Hot码,即每个目标向量中只允许一位为1,其余位必须为0;实验中的样本有多个标签,需要使用多重编码,多重编码中目标向量的每一位代表一种属性;当样本包含多个属性时,向量中对应属性的位标记为1,否则为0;为了适应多种编码模式,通过网络利用Sigmoid交叉熵损失函数作为优化损失函数,见公式(3):其中,i指的分支网络的编号;xi指的是输入向量;yi指的是第i个编号对应的实际值;

其中f(·)表示Sigmoid函数,见公式(4):

其中,i指的分支网络的编号;xi指的是输入向量;然后将Sigmoid函数代入公式(3),可以得到L(x),见公式(5):其中,i指的分支网络的编号;xi指的是输入向量;yi指的是第i个编号对应的实际值;

Sigmoid交叉熵损失函数可以计算每个目标的二元交叉熵损失,使得每个标签的概率值接近其实际值0或1;将每个标签的阈值设置为0.5,如果超过0.5,则选择当前标签作为分类。

8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述基于深度多流神经网络的图像分类方法的步骤。

9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于深度多流神经网络的图像分类方法的步骤。