1.一种自动分类社交网络用户评论数据的方法,其特征在于,包括以下步骤:(1)、设置分类类别
设置朴素贝叶斯分类模型的分类类别数为N;
(2)、数据采集
采集社交网络中某一事件主题下所有用户的评论数据;
(3)、数据预处理
将评论数据中的表情符号替换为汉文字符,并标注为类别特征关键词及所属类别;去除评论数据中不能识别的图片,以及特殊符号和非中文字符;对评论数据进行分词操作,再删除停用词和功能词;
每一条评论数据预处理完成后,生成对应的文本词项集合;
(4)、构建类别特征关键词库(4.1)、在每一个文本词项集合中,计算每个类别特征关键词与每一个普通词项之间的互信息值;
(4.2)、将所有互信息值进行降序排列,再选出排名靠前的前M个词项,并标注为类别特征关键词及所属类别;
(4.3)、将同一类别的类别特征关键词存放在同一类别特征关键词库中,从而构建出N个类别特征关键词库;
(5)、计算特征值并构建特征向量(5.1)、统计每个文本词项集合中的每个词项在每个类别特征关键词库中出现的次数;
(5.2)、将每个类别特征关键词库中均未出现的词项的特征值设置为0;
(5.3)、对于类别特征关键词库中出现的词项,利用如下公式计算该词项的特征值;
其中, 表示第i个文本词项集合中第τ个类别特征关键词相对于第j个类别特征关键词库的特征值,Mi表示第i个文本词项集合中词项的总总个数, 表示第i个文本词项集合中第τ个类别特征关键词在第j个类别特征关键词库中出现的次数, 表示第i个文本词项集合中第τ个类别特征关键词在第j'个类别特征关键词库中出现的次数,j≠j',N分类类别数,τ=1,2,…,mi;
(5.4)、按照步骤(5.3)所述方法,计算出第i个文本词项集合中所有类别特征关键词相对于第j个类别特征关键词库的特征值,然后对所有的特征值求均值,记为(5.5)、同理,按照步骤(5.3)所述方法,计算出第i个文本词项集合中所有类别特征关键词相对于其余类别特征关键词库的特征值并求均值,最后再从所有的 中选出最大值,记为
(5.6)、将第i个文本词项集合中所有类别特征关键词相对于第k个类别特征关键词库的特征值作为各个类别特征关键词的最终特征值;
(5.7)、对剩余的文本词项集合按照步骤(5.2)~(5.6)所述方法进行处理,从而得到每个文本词项集合中各个类别特征关键词的最终特征值;
(5.8)、构建特征向量
第i个文本词项集合的特征向量形式为:其中, 分别表示第i个文本词项集合中的类别特征关键词,表示相对于第k个类别特征关键词库的特征值;
(6)、训练朴素贝叶斯分类模型将特征向量作为输入数据,输入至朴素贝叶斯分类模型,模型输出为对应特征向量所属类别,通过利用所有的特征向量进行反复训练,使每一次输出的分类结果与对应特征向量所属类别一致时,结束分类模型训练;
(7)、利用朴素贝叶斯分类模型对数据进行分类将待分类的评论数据按照上述方法处理成特征向量的形式,再将该特征向量输入至朴素贝叶斯分类模型,朴素贝叶斯分类模型则完成该评论数据的自动分类。