利索能及
我要发布
收藏
专利号: 2013106929500
申请人: 深圳先进技术研究院
专利类型:发明专利
专利状态:已下证
更新日期:2024-12-09
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种产品分类方法,所述方法包括:

根据用于描述待分类产品的产品文本提取产品文本特征;

根据所述待分类产品的产品图像提取产品图像特征;

根据所述产品文本特征和所述产品图像特征生成待分类产品的产品特征;

将所述待分类产品的产品特征输入预先训练获得的产品分类模型,获得分类结果;

所述根据所述待分类产品的产品图像提取产品图像特征,包括:从所述待分类产品的产品图像中分割出多个相同大小的图像小块,且相邻的图像小块之间存在重叠部分;

提取所述图像小块的梯度直方图特征;

计算每个所述图像小块的梯度直方图特征与预先学习获得的聚类中心集合中的各个聚类中心的欧氏距离,统计所述聚类中心集合中与所述每个图像小块的梯度直方图特征的欧氏距离最近的聚类中心并计数;

根据对应所述每个图像小块的梯度直方图特征所统计的聚类中心和计数结果生成产品图像特征。

2.根据权利要求1所述的方法,其特征在于,训练样本集包括对应预设类别的多个产品样本,所述产品样本对应用于描述产品样本的样本文本和样本图像;所述方法还包括训练获得产品分类模型的步骤,包括:根据所述训练样本集中所述产品样本的样本文本提取样本文本特征;

根据所述训练样本集中所述产品样本的样本图像提取样本图像特征;

根据所述样本文本特征和所述样本图像特征生成样本特征;

根据所述样本特征训练获得基于支持向量机的产品分类模型。

3.根据权利要求2所述的方法,其特征在于,所述样本文本对应存储于样本文档中;所述根据用于描述待分类产品的产品文本提取产品文本特征,包括:将所述产品文本进行分词,获得候选词;

根据预设评估函数从所述候选词中筛选出产品特征词;

根据所述产品特征词在所述样本文档中出现的频率、样本文档总数和包含所述产品特征词的样本文档的个数计算产品特征词权值;

根据所述产品特征词权值生成待分类产品的产品文本特征。

4.根据权利要求3所述的方法,其特征在于,所述根据预设评估函数从所述候选词中筛选出产品特征词之前,还包括:过滤掉包含在预设停用词表中的所述候选词。

5.根据权利要求3所述的方法,其特征在于,所述根据预设评估函数从所述候选词中筛选出产品特征词,包括:计算所述候选词在所述样本文档中出现的次数,将出现次数大于或等于次数阈值的候选词作为产品特征词;和/或,计算包含所述候选词的样本文档占样本文档总数的比重,将对应的比重在预设范围内的候选词作为产品特征词;和/或,计算所述候选词的信息增益权值,将对应的信息增益权值大于信息增益权值阈值的候选词作为产品特征词;和/或,计算所述候选词的互信息值,将对应的互信息值大于互信息值阈值的候选词作为产品特征词;和/或,根据所述训练样本集中是否出现所述候选词和所述候选词是否属于所述预设类别的概率,计算所述候选词与所述预设类别的相关度,将对应的相关度大于相关度阈值的候选词作为产品特征词。

6.根据权利要求1所述的方法,其特征在于,所述提取所述图像小块的梯度直方图特征,包括:将每个所述图像小块划分为相同大小且不重叠的多个图像单元;

在所述每个图像单元上统计8个方向的梯度直方图特征,将所述每个图像小块所对应的图像单元的梯度直方图特征拼接起来获得所述每个图像小块的梯度直方图特征。

7.根据权利要求2所述的方法,其特征在于,所述样本文本对应存储于样本文档中;所述根据所述训练样本集中所述产品样本的样本文本提取样本文本特征,包括:将所述样本文本进行分词,获得待选词;

根据预设评估函数从所述待选词中筛选出样本特征词;

根据所述样本特征词在所述样本文档中出现的频率、样本文档总数和包含所述样本特征词的样本文档的个数计算样本特征词权值;

根据所述样本特征词权值生成所述产品样本的样本文本特征。

8.根据权利要求7所述的方法,其特征在于,所述根据预设评估函数从所述待选词中筛选出样本特征词之前,还包括:过滤掉包含在预设停用词表中的所述待选词。

9.根据权利要求7所述的方法,其特征在于,所述根据预设评估函数从所述待选词中筛选出样本特征词,包括:计算所述待选词在所述样本文档中出现的次数,将出现次数大于次数阈值的待选词作为样本特征词;

计算包含所述待选词的样本文档占样本文档总数的比重,将对应的比重在预设范围内的待选词作为样本特征词;

计算所述待选词的信息增益权值,将对应的信息增益权值大于信息增益权值阈值的待选词作为样本特征词;

计算所述待选词的互信息值,将对应的互信息值大于互信息值阈值的待选词作为样本特征词;和/或根据所述训练样本集中是否出现所述待选词和所述待选词是否属于所述预设类别的概率,计算所述待选词与所述预设类别的相关度,将对应的相关度大于相关度阈值的待选词作为样本特征词。

10.根据权利要求2所述的方法,其特征在于,所述根据所述训练样本集中所述产品样本的样本图像提取样本图像特征,包括:从所述训练样本集中所述产品样本的样本图像中分割出多个相同大小的小图像块,且相邻的小图像块之间存在重叠部分;

提取所述小图像块的梯度直方图特征;

计算每个所述小图像块的梯度直方图特征与预先学习获得的聚类中心集合中的各个聚类中心的欧氏距离,统计所述聚类中心集合中与所述每个小图像块的梯度直方图特征的欧氏距离最近的聚类中心并计数;

根据对应所述每个小图像块的梯度直方图特征所统计的聚类中心和计数结果生成样本图像特征。

11.根据权利要求10所述的方法,其特征在于,所述提取所述小图像块的梯度直方图特征,包括:将每个所述小图像块划分为相同大小且不重叠的多个子单元;

在所述每个子单元上统计8个方向的梯度直方图特征,将所述每个小图像块所对应的子单元的梯度直方图特征拼接起来获得所述每个小图像块的梯度直方图特征。

12.根据权利要求1或10所述的方法,其特征在于,所述方法还包括学习获得聚类中心集合的步骤,包括:从训练样本集中选取分别对应每个预设类别的预设选取数的产品样本;

将所述选取的产品样本对应的产品样本图像分割为多个相同大小的图像子块,且相邻的图像子块存在重叠部分;

提取所述图像子块的梯度直方图特征;

将所述图像子块的梯度直方图特征聚类为预设聚类中心数的聚类中心,获得聚类中心集合。

13.一种产品分类装置,其特征在于,所述装置包括:产品文本特征提取模块,用于根据用于描述待分类产品的产品文本提取产品文本特征;

产品图像特征提取模块,用于根据所述待分类产品的产品图像提取产品图像特征;

产品特征生成模块,用于根据所述产品文本特征和所述产品图像特征生成待分类产品的产品特征;

分类模块,用于将所述待分类产品的产品特征输入预先训练获得的产品分类模型,获得分类结果;

所述产品图像特征提取模块包括:

图像小块分割模块,用于从所述待分类产品的产品图像中分割出多个相同 大小的图像小块,且相邻的图像小块之间存在重叠部分;

图像小块特征提取模块,用于提取所述图像小块的梯度直方图特征;

第一统计和计数模块,用于计算每个所述图像小块的梯度直方图特征与预先学习获得的聚类中心集合中的各个聚类中心的欧氏距离,统计所述聚类中心集合中与所述每个图像小块的梯度直方图特征的欧氏距离最近的聚类中心并计数;

产品图像特征生成模块,用于根据对应所述每个图像小块的梯度直方图特征所统计的聚类中心和计数结果生成产品图像特征。

14.根据权利要求13所述的装置,其特征在于,训练样本集包括对应预设类别的多个产品样本,所述产品样本对应用于描述产品样本的样本文本和样本图像;所述装置还包括训练模块,包括:样本文本特征提取模块,用于根据所述训练样本集中所述产品样本的样本文本提取样本文本特征;

样本图像特征提取模块,用于根据所述训练样本集中所述产品样本的样本图像提取样本图像特征;

样本特征生成模块,用于根据所述样本文本特征和所述样本图像特征生成样本特征;

训练执行模块,用于根据所述样本特征训练获得基于支持向量机的产品分类模型。

15.根据权利要求14所述的装置,其特征在于,所述样本文本对应存储于样本文档中;

所述产品文本特征提取模块包括:

第一分词模块,用于将所述产品文本进行分词,获得候选词;

产品特征词筛选模块,用于根据预设评估函数从所述候选词中筛选出产品特征词;

产品特征词权值计算模块,用于根据所述产品特征词在所述样本文档中出现的频率、样本文档总数和包含所述产品特征词的样本文档的个数计算产品特征词权值;

产品文本特征生成模块,用于根据所述产品特征词权值生成待分类产品的 产品文本特征。

16.根据权利要求15所述的装置,其特征在于,所述产品文本特征提取模块还包括候选词过滤模块,用于过滤掉包含在预设停用词表中的所述候选词。

17.根据权利要求15所述的装置,其特征在于,所述产品特征词筛选模块包括第一筛选模块、第二筛选模块、第三筛选模块、第四筛选模块和第五筛选模块中的至少一个模块:第一筛选模块用于计算所述候选词在所述样本文档中出现的次数,将出现次数大于或等于次数阈值的候选词作为产品特征词;

第二筛选模块用于计算包含所述候选词的样本文档占样本文档总数的比重,将对应的比重在预设范围内的候选词作为产品特征词;

第三筛选模块用于计算所述候选词的信息增益权值,将对应的信息增益权值大于信息增益权值阈值的候选词作为产品特征词;

第四筛选模块用于计算所述候选词的互信息值,将对应的互信息值大于互信息值阈值的候选词作为产品特征词;

第五筛选模块用于根据所述训练样本集中是否出现所述候选词和所述候选词是否属于所述预设类别的概率,计算所述候选词与所述预设类别的相关度,将对应的相关度大于相关度阈值的候选词作为产品特征词。

18.根据权利要求13所述的装置,其特征在于,所述图像小块特征提取模块包括:图像单元划分模块,用于将每个所述图像小块划分为相同大小且不重叠的多个图像单元;

第一特征拼接模块,用于在所述每个图像单元上统计8个方向的梯度直方图特征,将所述每个图像小块所对应的图像单元的梯度直方图特征拼接起来获得所述每个图像小块的梯度直方图特征。

19.根据权利要求14所述的装置,其特征在于,所述样本文本对应存储于样本文档中;

所述样本文本特征提取模块包括:

第二分词模块,用于将所述样本文本进行分词,获得待选词;

样本特征词筛选模块,用于根据预设评估函数从所述待选词中筛选出样本特征词;

样本特征词权值计算模块,用于根据所述样本特征词在所述样本文档中出现的频率、样本文档总数和包含所述样本特征词的样本文档的个数计算样本特征词权值;

样本文本特征生成模块,用于根据所述样本特征词权值生成所述产品样本的样本文本特征。

20.根据权利要求19所述的装置,其特征在于,所述样本文本特征提取模块还包括待选词过滤模块,用于过滤掉包含在预设停用词表中的所述待选词。

21.根据权利要求19所述的装置,其特征在于,所述样本特征词筛选模块包括依据次数筛选模块、依据文档比重筛选模块、依据信息增益权值筛选模块、依据互信息值筛选模块和依据相关度筛选模块中的至少一个模块:依据次数筛选模块用于计算所述待选词在所述样本文档中出现的次数,将出现次数大于次数阈值的待选词作为样本特征词;

依据文档比重筛选模块用于计算包含所述待选词的样本文档占样本文档总数的比重,将对应的比重在预设范围内的待选词作为样本特征词;

依据信息增益权值筛选模块用于计算所述待选词的信息增益权值,将对应的信息增益权值大于信息增益权值阈值的待选词作为样本特征词;

依据互信息值筛选模块用于计算所述待选词的互信息值,将对应的互信息值大于互信息值阈值的待选词作为样本特征词;

依据相关度筛选模块用于根据所述训练样本集中是否出现所述待选词和所述待选词是否属于所述预设类别的概率,计算所述待选词与所述预设类别的相关度,将对应的相关度大于相关度阈值的待选词作为样本特征词。

22.根据权利要求14所述的装置,其特征在于,所述样本图像特征提取模块包括:小图像块分割模块,用于从所述训练样本集中所述产品样本的样本图像中分割出多个相同大小的小图像块,且相邻的小图像块之间存在重叠部分;

小图像块特征提取模块,用于提取所述小图像块的梯度直方图特征;

第二统计和计数模块,用于计算每个所述小图像块的梯度直方图特征与预先学习获得的聚类中心集合中的各个聚类中心的欧氏距离,统计所述聚类中心集合中与所述每个小图像块的梯度直方图特征的欧氏距离最近的聚类中心并计数;

样本图像特征生成模块,用于根据对应所述每个小图像块的梯度直方图特征所统计的聚类中心和计数结果生成样本图像特征。

23.根据权利要求22所述的装置,其特征在于,所述小图像块特征提取模块包括:子单元划分模块,用于将每个所述小图像块划分为相同大小且不重叠的多个子单元;

第二特征拼接模块,用于在所述每个子单元上统计8个方向的梯度直方图特征,将所述每个小图像块所对应的子单元的梯度直方图特征拼接起来获得所述每个小图像块的梯度直方图特征。

24.根据权利要求13或22所述的装置,其特征在于,所述装置还包括聚类中心集合获取模块,包括:产品样本选取模块,用于从训练样本集中选取分别对应每个预设类别的预设选取数的产品样本;

图像子块分割模块,用于将所述选取的产品样本对应的产品样本图像分割为多个相同大小的图像子块,且相邻的图像子块存在重叠部分;

图像子块特征提取模块,用于提取所述图像子块的梯度直方图特征;

聚类模块,用于将所述图像子块的梯度直方图特征聚类为预设聚类中心数的聚类中心,获得聚类中心集合。