1.一种电子商务产品质量的风险评价方法,其特征在于:步骤1:语料库获取
利用网络爬虫软件,制定爬取规则,抓取与指定产品相关的电商网站以及论坛上的用户评论文本,以结构化形式保存到数据库中;
步骤2:中文自然语言处理
首先对原始的评论数据进行数据清理操作,然后利用中文自然语言处理工具对评论语料分别进行初次分词及词性标注、新词识别、评论真实度情感分析等预处理以获得结构化的情感分析结果并保存到数据库中,进一步,训练条件随机场模型,最后利用条件随机场模型从评论数据中提取质量特征词;
步骤3:质量风险评价
首先提出商家信用综合评价表,并基于该模板统计出与每个商家的信用指数;进一步,构建评估函数,完成对电商产品的评估,根据设计评价融合函数,计算出每一款电商产品的最终得分,最后,根据评分得到产品的风险等级。
2.如权利要求1所述的一种电子商务产品质量的风险评价方法,其特征在于:在步骤1中,爬虫技术是通过网页中的HTTP协议,把制定好的正则表达式用来采集电商网站某种特定商品评论区的评论信息。
3.如权利要求1所述的一种电子商务产品质量的风险评价方法,其特征在于:在步骤2中,(1)对文本数据的清理主要是对评论文本数据缺省值、文本重复和评论字数限制的预处理;(2)对文本数据分词产品特征词聚类及其权重的定义情感分析。
4.如权利要求3所述的一种电子商务产品质量的风险评价方法,其特征在于:(1) 用整理的情感词词典对依存关系分析结果中的支配词进行标注,得到以词语为基本记录单元的结构化数据;(2)将情感分析的结果分为训练集和测试集,制定条件随机场特征模板,利用开源工具包,对已经标注产品特征的训练集进行训练,生成条件随机场模型,再利用该模型对测试集进行产品特征标注,对不同类的特征给予不同的影响权重。
5.如权利要求1所述的一种电子商务产品质量的风险评价方法,其特征在于:在步骤3中,评价融合函数的计算公式为:其中, 分别表示商品销量模型所得分数、商铺信誉模型所得分数及评论文本模型所得分数, 分别表示各个因子所占权重。
6.如权利要求5所述的一种电子商务产品质量的风险评价方法,其特征在于:在步骤3中,评价融合函数算法中, 的计算公式为:历史销售百分比:
未来销售百分比:
商品销量得分:
其中, 表示回归函数, , , 为第i
商品惩罚项为第i期数的百分数。
7.如权利要求5所述的一种电子商务产品质量的风险评价方法,其特征在于:在评价融合函数算法中, 的计算公式为:其中, 为商铺得分集合, 表示第i商铺得分集合和第i个商铺最终得分;
表示第i个商铺的第j个分值; 分别表示,每个商铺第j个得分集合中的最大值、平均值和最小值。
8.如权利要求5所述的一种电子商务产品质量的风险评价方法中,其特征在于:在评价融合函数算法中, 的计算公式为:其中,RQC表示评论质量系数,QRG表示质量水平得分,FWG表示特征词得分,ETA表示情感倾向分析得分。
9.如权利要求1所述的一种电子商务产品质量的风险评价方法,其特征在于:所述的质量风险评价是依据评价融合函数总得分划分出电子商务产品质量的风险等级。