1.一种基于复杂网络的集成学习的文本情感分类方法,其特征在于:包括以下步骤:S0:采集数据并对数据进行预处理得到原始特征集;
S1:通过现有信息增益方法对原始特征集进行特征选择,得到第一特征选择结果集;
S2:基于复杂网络综合特性对原始特征集进行特征选择,得到第二特征选择结果集;
S3:去除第一特征选择结果集与第二特征选择结果集的重复项,取并集融合得到最终特征选择结果集;
S4:采用TF‑IDF方法对最终特征选择结果集中的特征进行权重计算;
S5:配置环境构建分类训练模型,利用集成学习加强朴素贝叶斯方法对数据进行分类训练并输出结果。
2.根据权利要求1所述的一种基于复杂网络的集成学习的文本情感分类方法,其特征在于:所述的步骤S0中,具体步骤为:S01:创建并运行爬虫程序,基于urllib标准库读取URL标签,利用requests库对服务器发送请求对象,利用BeautifulSoup库解析网页,获得文本数据;
S02:对文本数据进行包括清洗、分词的预处理工作得到原始特征集,并以txt格式存储为文本文档;文本文档包括停用词表、评论文本、分词后的数据,文本文档的保存格式为编号‑文本‑类别;
S03:采用SQL语句根据查询分析需求对评论文本进行ID编号,通过MySQL数据库对原始特征集增加主键约束。
3.根据权利要求1所述的一种基于复杂网络的集成学习的文本情感分类方法,其特征在于:所述的步骤S2中,具体步骤为:S21:以特征词为节点,连接句子中共现跨度小于或等于2的特征词,合并处在不同句子中的相同特征词节点,根据复杂网络的综合特性对预处理后的文本数据构建加权复杂网络;
S22:分别计算节点ni的加权度、加权聚集系数和节点介数,并分别进行归一化处理;构造评估函数CF,以函数值作为节点ni的综合特征值;
S23:对节点的函数值进行排序,选取函数值较大的前m个节点对应的特征词作为文本的关键词。
4.根据权利要求3所述的一种基于复杂网络的集成学习的文本情感分类方法,其特征在于:所述的步骤S21中,具体步骤为:用加权复杂网络的节点代表特征词,设节点的集合为:N={n1,n2,n3,...,nk};
用加权复杂网络的边代表特征词之间的包括共现和邻接位置的语义相关关系,设经过预处理之后的原始特征词为n,复杂网络中的结点个数为k,加权复杂网络中边的集合为:E={ei,j=(ni,nj)|ni,nj∈N};
用边的权值代表特征词的语义相关关系的程度,权值越大,表明特征词之间语义相关关系越紧密,设边eij的权重为wij,边的权重集合为:W={w12,w13,...,wij,...};
则将文本表示成加权的复杂网络为:G=(N,E,W)。
5.根据权利要求4所述的一种基于复杂网络的集成学习的文本情感分类方法,其特征在于:所述的步骤S22中,具体步骤为:设节点ni的各部分的权重βi(1≤i≤3)是可调节的参数,则:β1+β2+β3=1;
设节点ni与所有邻居节点nj的边的权值为Wij,则用于反映节点nj与其他节点的连接强度的加权度WDi为:
设用于表示节点ni邻接节点间边的权重和的节点ni的加权聚集度为WKi,节点ni的度数为ki,则加权聚集系数为:
设节点ni的介数为pi,以评估函数CF的函数值作为节点ni的综合特征值,则:CFi=β1WDi+β2WCi+β3Pi。
6.根据权利要求5所述的一种基于复杂网络的集成学习的文本情感分类方法,其特征在于:所述的步骤S3中,具体步骤为:定义信息增益是信息熵的差值,是移除某个变量的不确定性之后的信息量;采用信息增益算法IG计算特征项的不确定性造成的信息熵的差值,用于评价特征项对文档的重要程度,则信息增益公式为:
IG(X,Y)=E(X)‑E(X|Y);
设包含特征项w的文档的概率为P(w),不包含特征项w的文档的概率为 属于Ci类的文档的概率为P(Ci),包含特征项w且属于Ci类的文档的概率为P(Ci|w),不包含特征项w且不属于Ci类的文档的概率为 语料库中文档类别的个数为n,则Ci类文档中是否包含特征项w的信息增益为:
按照信息增益值的降序排列特征项,提取排列靠前的一定数量的词语作为全局特征词,并保存特征词文本文件。
7.根据权利要求6所述的一种基于复杂网络的集成学习的文本情感分类方法,其特征在于:所述的步骤S4中,具体步骤为:对最终特征选择结果集中的特征词进行排序,将正类放在前面,负类放在后面;采用TF‑IDF算法计算特征词在不同类别中的权重,或通过SQL语句计算每一类特征的总权重;
设ni,j表示词ti在文档dj中出现的次数, 表示文档dj中所有k个词次数的总和,定义词频TF是特征词ti在文档dj中出现的频率,频率越高对文档越重要,则词频TF的表达式为:
设|{j:ti∈dj}|表示词ti的文档数,定义逆文档频率IDF是包含特征词ti的文档占总文档D的比重的倒数,用于避免出现频率高但对文档分类作用小的词获得高权重,则逆文档频率IDF的表达式为:
则通过表达式:
TF‑IDF=tfi,j·idfi,表示词语对于文本的重要性随词频的增大而增大、随文档频率的增加而减小;在当前文本中出现的次数多,并且在别的文本中出现的次数少的词语对于文本有意义;均匀出现在各个文本中的词语对文本的意义小。
8.根据权利要求1所述的一种基于复杂网络的集成学习的文本情感分类方法,其特征在于:所述的步骤S5中,具体步骤为:S51:配置环境,确定待分类项组成的测试集,对测试集数据进行包括清洗、分词的预处理,并对测试集的每条文本进行id编号;
S52:假设各特征条件相互独立,对待分类项求解各类别出现的概率并记录为已知概率,构建包括多变量伯努利模型和多项式模型的分类训练模型;
S53:利用集成学习加强朴素贝叶斯方法对测试集数据进行分类训练,根据已知概率提取和计算待分类项的特征属于某一类别的概率,取概率最大的类别为待分类文本的所属类别并输出结果,实现对文本的情感分类。
9.根据权利要求8所述的一种基于复杂网络的集成学习的文本情感分类方法,其特征在于:所述的步骤S53中,集成学习融合AdaBoost算法,通过提高前一轮分类器分类错误的样本的权值,降低分类正确的样本权值,产生多个弱分类器;通过多数加权投票组合弱分类器,加大误差率小的分类器,减少误差率大的分类器,提高分类的准确率和效率。
10.根据权利要求8所述的一种基于复杂网络的集成学习的文本情感分类方法,其特征在于:所述的步骤S53中,具体步骤为:S531:输入数据集T={(x1,y1),(x2,y2),...,(xn,yn)},xi∈X,X表示训练样本集空间,Yi∈Y={1,2}是某一类别集;每次迭代的索引为t=1,2,...,T,通过AdaBoost算法为每个训练样本分配权重 初始时,对所有i都有S532:将AdaBoost算法用于朴素贝叶斯算法;在迭代过程中若训练样本xi被错误分类,则权重 增加;若训练样本xi被正确分类,则权重 减少;将训练样本的权重为 引入到参数P(Xk|Cj),则朴素贝叶斯公式变为:样本权重、朴素贝叶斯的先验概率和后验概率随着AdaBoost的迭代而更新,对朴素贝叶斯分类器的分类产生扰动,增加了朴素贝叶斯分类器的相异性。