利索能及
我要发布
收藏
专利号: 2016109117344
申请人: 中国计量大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-10-14
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.基于评论文本挖掘的产品特征结构树构建方法,其特征在于:该方法包括下述步骤:步骤1:语料库的获取

利用网络爬虫软件,制定爬取规则,抓取与指定产品相关的电商网站以及论坛上的用户评论文本,并对其进行预处理,以结构化形式保存到数据库中;

步骤2:产品特征的提取

2.1利用分词器对语料库进行初次分词及词性标注,从初次分词结果中通过新词发现方法,识别领域新词,并将其添加到用户词典中,再基于用户词典对语料库进行优化分词;

2.2将优化分词结果进行词性标注集转换,用中文自然语言处理工具包对转换后的优化分词结果进行依存关系分析;

2.3用整理的情感词词典对依存关系分析结果中的支配词进行标注,得到以词语为基本记录单元的结构化数据;

2.4将情感分析的结果分为训练集和测试集,制定条件随机场特征模板,利用开源工具包,对已经标注产品特征的训练集进行训练,生成条件随机场模型,再利用该模型对测试集进行产品特征标注,并对测试结果进行测评;

2.5从语料库中将标记的产品特征提取出来;

步骤3:产品特征结构树的构建

3.1定义产品特征的类型,构建特征类型的层次结构;

3.2对于每个产品特征,定位它在优化分词结果中的位置,对于位置的前面的信息,统计在同一条评论语句中、且是第一个能与产品特征表匹配的、不是本产品特征的产品特征出现的频数,将匹配的非本产品特征、非本产品特征的类型、非本产品特征频数统计结果保存到结果数组中;对于位置的后面的信息,与位置前面的信息处理结果相同;

3.3对结果数组中的频数按照从大到小的顺序进行排序,基于特征类型的层次结构,在结果数组中寻找本产品特征的类型的上层类型,则对应的非本产品特征就是寻找的关联特征;

3.4遍历产品特征结构树,当不存在本产品特征时,将本产品特征-关系-关联特征这个分支保存到分支数组中;当存在本产品特征时,先判断产品特征树中是否存在该分支,当不存在该分支时,将关联特征作为本产品特征的子节点,添加到产品特征结构树中;否则,不变;

3.5将分支数组中的本产品特征与产品特征结构树中的节点进行匹配,当存在时,将该分支添加到树中对应节点上,并删除分支数组中的该分支,整理数组;否则,不变;

步骤4:产品特征的定量分析

4.1统计优化分词结果中所有产品特征出现的频数;

4.2基于产品特征结构树和已统计的产品特征频数,统计产品特征中部件特征的频数;

4.3分析句法分析结果中产品特征的支配词和上下文,查找情感词、程度副词和否定词语素,计算产品特征的情感得分;

4.4可视化产品特征频数的统计结果和情感得分,分析用户对产品的关注点;

步骤5:产品特征结构树的扩展

5.1对同义子节点的扩展,通过定量计算特征相似度的方法,计算新产生的产品特征与产品特征结构树中的节点之间的相似度,来确定新产品特征的父节点,并将其添加到产品特征结构树中;

5.2对隶属子节点的扩展,通过定量计算特征相关度的方法,计算新产生的产品特征与产品特征结构树中的节点之间的相关度,来确定新产品特征的父节点,并将其添加到产品特征结构树中。

2.如权利要求1所述的基于评论文本挖掘的产品特征结构树构建方法,其特征在于:步骤2.1中,对初次分词结果通过新词发现方法,识别领域新词,其中新词发现方法包括构造重复串、频率过滤、内聚性过滤和左右熵过滤操作。

3.如权利要求1所述的基于评论文本挖掘的产品特征结构树构建方法,其特征在于:步骤3.1中,产品特征的类型可分为五大类,分别表示“产品的整体”“产品的部件”“产品的属性”“产品的功用”和“产品的问题”,相应地,我们将其命名为产品名特征、部件特征、属性特征、功用特征、问题特征;用四种关系符描述五类产品特征之间的语义关系,分别是part-of、use-of、attribute-of和problem-of,并用关系符equal-to表示描述同义产品特征之间的关系。

4.如权利要求1所述的基于评论文本挖掘的产品特征结构树构建方法,其特征在于:步骤4.2中,计算产品特征中部件特征的频数是基于产品特征结构树,从叶子节点往根节点的方向计算的;除叶子节点外,部件特征的频数计算公式为:Sum部件=Sum同义+μ×(Sum属性+Sum功用+Sum问题)

其中,Sum部件表示部件特征的频数;Sum同义表示子节点上与部件特征之间是equal-to关系的产品特征频数之和;Sum属性、Sum功用、Sum问题分别表示子节点上与部件特征之间是use-of、attribute-of、problem-of关系的产品特征频数之和;μ表示隶属节点的转换率,范围为[0,

1]。

5.如权利要求1所述的基于评论文本挖掘的产品特征结构树构建方法,其特征在于:步骤4.3中,

1)如果一个产品特征在一条评论中出现多次,则只讨论情感强度最大的情感词;

2)不同极性的情感词,情感得分的计算方法是不同的;情感得分越高,表示该产品特征越令用户满意;

3)计算一条用户评论中的产品特征的情感得分,根据情感词极性的不同分为三种情况:第一种情况:修饰产品特征的是褒义情感词,情感得分就是情感词的情感强度;

第二种情况:修饰产品特征的是贬义情感词,情感得分是情感词的情感强度的负值;

第三种情况:修饰产品特征的是中性情感词,情感得分的计算采用结合上下文语境的方法:以本条评论中所有情感词的情感强度均值作为该产品特征的情感得分。

6.如权利要求1所述的基于评论文本挖掘的产品特征结构树构建方法,其特征在于:步骤4.3中,否定词词典中词语来源于评论文本和网络中常用的否定词;当某个产品特征的支配词是情感词,且情感词的前面4个词语中存在否定词时,该产品特征的情感得分变为情感得分的负值;否则,情感得分不变。

7.如权利要求1所述的基于评论文本挖掘的产品特征结构树构建方法,其特征在于:步骤4.3中,产品特征情感得分计算方法如下:从语料库中提取的产品特征组成了特征集合{fw1,fw2,...,fwn},对于每个产品特征fwi,定义了一个产品特征的情感得分Sco(fwi),范围为[0,100],Sco(fwi)分值越高,说明用户对该产品特征的评价越高,Sco(fwi)的计算公式为:

其中,a、b、c分别表示修饰产品特征fwi的情感词为褒义、贬义、中性情感词的评论条数,ScoP(fwi)、ScoN(fwi)、ScoM(fwi)分别是计算褒义、贬义、中性情感词得到的情感得分,它们的计算公式如下:

其中,PW(k)表示第k条评论中修饰产品特征fwi的褒义情感词,Str(i,PW(k))表示产品特征fwi的第k个褒义情感词的情感强度;NW(k)表示第k条评论中修饰产品特征fwi的贬义情感词,Str(i,NW(k))表示产品特征fwi的第k个贬义情感词的情感强度;p(k)、n(k)分别表示在修饰产品特征的情感词为中性的第k条评论中,褒义情感词的个数和贬义情感词的个数,PW(k,j)表示在修饰产品特征的情感词为中性的第k条评论中的第j个褒义情感词,NW(k,t)表示在修饰产品特征的情感词为中性的第k条评论中的第t个褒义情感词。

8.如权利要求1所述的基于评论文本挖掘的产品特征结构树构建方法,其特征在于:步骤5.1中,基于字面相似度的词语相似性算法受数量因素和位置因素影响,其中,数量因素指两个词语之间含有相同汉字的个数,位置因素指相同汉字在各个词语中的位置权重。字面相似度的相似性计算方法如下:假设A和B表示需要计算相似度的两个产品特征,A和B之间的字面相似度记为SimWord(A,B),且0≤SimWord(A,B)≤1。则SimWord(A,B)的计算公式为:其中,α和β分别表示数值因素相似度和位置因素相似度在整个词语相似度中所占的权重系数,且α+β=1;dp表示为两个产品特征的汉字个数之比,且 Weight(A,i)表示A中第i个汉字的权重,且 |A

|和|B|分别表示特征A和特征B所包含的汉字个数;A(i)表示A中的第i个汉字;SameHZ(A,B)表示特征A和B中共同包含的相同汉字的集合,|SameHZ(A,B)|表示SameHZ(A,B)集合的大小,即特征A和B中共同包含的相同汉字的个数。

9.如权利要求1所述的基于评论文本挖掘的产品特征结构树构建方法,其特征在于:步骤5.1中,基于语境的词语相似度计算方法如下:产品特征Featurei用一个n维的向量表示为Featurei=(Si1,Si2,...,Sij,...,Sin),其中,Sij是Featurei与常用情感词组中的第j个情感词的共现频率。将词语相似度计算转化为向量的相似度计算,两个向量之间的相似度用夹角余弦来衡量,计算公式为

10.如权利要求1所述的基于评论文本挖掘的产品特征结构树构建方法,其特征在于:步骤5.2中,通过计算新产生的产品特征与产品结构树中特征的相关度来确定新特征的父节点,相关度的计算公式为:

其中,Fab表示产品特征Featurea和Featureb的共现频数,Fa和Fb表示每个产品特征单独出现的频数。