1.基于机器学习和统计回归的分解酒店文本描述方法,其特征在于,执行如下步骤S1‑步骤S5,完成酒店描述的分析,进一步完成消费者参与度的分析:步骤S1:采集酒店描述样本,酒店描述样本包括消费者针对酒店的文字描述、照片的数量、联系信息以及消费者评论和评级,并构建数据集;
步骤S2:将数据集中的酒店描述样本随机分为两组,其中一组作为手动编码和分类器开发的训练集,另一组作为预测分析的测试集;
步骤S3:针对步骤S2所划分的训练集中的酒店描述样本进行手动编码,将酒店描述样本的内容分为功能内容、位置内容、情感内容;
步骤S4:针对数据集的酒店描述样本中的语句进行预处理,采用TF方法和TFIDF方法将所有语句进行矢量化,使用训练集中的酒店描述样本对分类器进行训练,获得训练好的分类器,并使用测试集完成分类器的测试,使分类器针对未编码的酒店描述样本,实现将酒店描述样本的内容自动分解为功能内容、位置内容、情感内容;
步骤S5:基于酒店描述样本的功能内容、位置内容和情感内容及其数量,通过统计回归方法,建立针对消费者评论量和平均消费者评分的多层次一般线性模型,以分析酒店描述样本的内容和数量对消费者评论量和平均消费者评分的影响;
步骤S5所建立的多层次一般线性模型如下式:
;
;
式中, 为酒店i的消费者评论量, 为酒店i的平均消费者评分,为酒店i的酒店描述样本总长度, 为酒店i的酒店描述样本所包含的内容类型的数量, 为酒店i的功能内容的长度的影响, 为酒店i的位置内容的长度的影响, 为酒店i的情感内容的长度的影响, 为酒店i的照片数量, 为酒店所在地的消费者群体偏差;β0~β9为回归参数, 为酒店i的消费者联系信息, 为酒店i的消费者评论的情感主观性, 为酒店i的消费者评论的情感极性,为随机干扰项。
2.根据权利要求1所述的基于机器学习和统计回归的分解酒店文本描述方法,其特征在于,步骤S1中将缺少文字描述、照片、消费者评论和评级的酒店描述样本从数据集中剔除。
3.根据权利要求1所述的基于机器学习和统计回归的分解酒店文本描述方法,其特征在于,步骤S3中的手动编码方法为:针对每个酒店描述样本,由不同的编码人员编码四次,对酒店描述样本的内容进行类型划分,对于编码不一致的内容,进行团队编码以确定最终结果。
4.根据权利要求1所述的基于机器学习和统计回归的分解酒店文本描述方法,其特征在于,步骤S4中所采用的分类器为基于TFIDF矢量化的SVM分类器。
5.根据权利要求1所述的基于机器学习和统计回归的分解酒店文本描述方法,其特征在于,步骤S4的具体步骤如下:步骤S4.1:对数据集的酒店描述样本中的语句进行清理,包括删除符号和特殊字符;
步骤S4.2:将清理后的语句进行标记化,将每个语句拆分为单独的单词和短语;
步骤S4.3:将标记化后的语句应用词形还原过程,将单词和短语简化为词根形式;
步骤S4.4:将步骤S4.3所获得的语句采用TF方法进行矢量化,具体如下式:;
式中, 表示单词w在语句d中的出现频率, 是单词w在语句d中出现的计数,nd为语句d的单词总数;
在整个数据集上导出词汇表 ,将语句d用向量 表示;
步骤S4.5:使用TFIDF方法,针对所有语句,检查在所有语句中有单词w出现的语句数,具体如下式:;
式中, 表示单词的分数,Nw表示所有语句中有单词w出现的语句数,N为语句总数;
将语句d用向量 表示。