利索能及
我要发布
收藏
专利号: 2016110923750
申请人: 中国计量大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-10-14
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于相似度计算的垃圾评论检测方法,其特征在于,包括:

步骤1,数据获取:利用网络爬虫,抓取与指定产品相关的论坛、电商网页,然后抽取网页中的评论数据,并将评论数据保存到数据库中;

步骤2,虚假评论检测:计算评论时间与购买时间的时间的差T,若T<货物运送时间则该条评论为虚假评论;

步骤3,重复评论检测:对每条评论进行分词,然后计算评论间的相似度,当评论间的相似度高于阈值,则该评论和其相似的评论即为重复评论;

计算每条评论与其他评论间的词形词序相似度,其计算公式为:

词形相似度:

其中句子A的长度为len(A),句子B的长度为len(B),SameWC(A,B)表示句子A,B中相同单词的个数;

词序相似度:

其中OnceWS(A,B)表示A、B中都出现且只出现一次的单词集合,Pfirst(A,B)表示OnceWS(A,B)的单词在A中的位置序号构成的向量,Psecond(A,B)表示Pfirst(A,B)中的分量按对应单词在B中的词序排列生成的向量,RevOrd(A,B)表示Psecond(A,B)各相邻分量的逆序数,句子相似度:

Sim(A,B)=λ1×WordSim(A,B)+λ2×OrdSim(A,B)其中λ1,λ2是常数,并且满足λ1+λ2=1;

步骤4,数据处理:对评论进行句法分析、情感标注、特征词提取处理,并根据产品说明书,构建产品特征词典;

步骤5,无关评论检测:计算每条评论的评论目标是否为目标产品及其特征,检测出与目标产品无关的评论。

2.如权利要求1所述的基于相似度计算的垃圾评论检测方法,其特征在于:在步骤1中,抓取与指定产品相关的论坛、电商等网页时,计算产品名与网页标题相似度的公式为:

3.如权利要求1所述的基于相似度计算的垃圾评论检测方法,其特征在于:在步骤2中,将每条评论进行分词及词性分析。

4.如权利要求1所述的基于相似度计算的垃圾评论检测方法,其特征在于:在步骤2中,计算每条评论的评论时间和客户购买商品的时间之差T,并将差值T与货物运送时间进行比较,若T<货物运送时间,则该条评论为用户还没有收到产品并使用就已发表的虚假评论。

5.如权利要求1所述的基于相似度计算的垃圾评论检测方法,其特征在于:在步骤4中,对已经重复检测过评论进行依存句法分析,标注词语的句法成分和其支配词。

6.如权利要求1所述的基于相似度计算的垃圾评论检测方法,其特征在于:在步骤4中,对评论进行情感标注,将词语分为三类:N代表负面情感词,P代表正面情感词,M代表中性情感词,对于褒义情感词和贬义情感词,情感强度分为1,3,5,7,9五档,9表示强度最大,1为强度最小,对于中性情感词,情感强度均为0;并构建修饰情感词的程度副词词典,程度副词词典中的词语按照情感强度分为四类,分别为:“极其”、“很”、“较”、“稍”,对应的情感强度值为4,3,2,1。

7.如权利要求1所述的基于相似度计算的垃圾评论检测方法,其特征在于:在步骤4中,利用CRF模型对产品特征词进行标注,得到产品特征集,其计算公式如下:式中tk和sk是特征函数,λk和μk分别表示两个特征函数的权重,Z(x)规范化因子;并根据产品说明书对CRF模型提取的产品特征词进行修正与是补充,构建完整准确的产品特征集。

8.如权利要求1所述的基于相似度计算的垃圾评论检测方法,其特征在于:在步骤5中,计算每条评论的评论目标与产品特征的距离,若一条评论与所有的产品特征的距离都大于给定阈值,则该条评论为无关评论。

9.如权利要求1所述的基于相似度计算的垃圾评论检测方法,其特征在于:步骤5中,计算每条评论的评论目标词与产品特征词两个词语之间的词林相似度,词语W的语义编码为E,即为E(W)=e1,e2,e3,e4,e5,e6,ei代表词林扩展版词语编码中的类别级别,Weight(ei)表示第i级别的类别ei的权重大小,共有类别C(Ei,Ej)定义为编码Ei和Ej所拥有的共同部分的类别编码集合,其共同部分在判定时由大类开始,依次向小类判断,遇到第一个不同的子类别之前为止,其计算公式如下: