1.基于深度学习的主题建模与情感分析方法,其特征在于,包括如下步骤:获取待分析的无标签文本数据集,进行预处理;
针对预处理后的数据基于深度学习的特征融合方式进行文本嵌入,动态确定降维维度对嵌入文本降维,对降维后的数据进行聚类得到主题;
筛选出与主题相邻分布的噪声数据,计算主题数据和相邻噪声的一致性,针对每个主题重划分噪声数据进行主题优化;
将划分主题后的待分析数据,依次进行变量定义、基于知识图谱嵌入进行段落分割、变量标注和设计时序分析提取主题的时间变化和主题发展特征的连续性,分析主题的情感总体倾向,得到情感分析结果,具体步骤包括:按照统计学方法将数据定义为自变量和因变量;
在SeqModel段落分割模型中引入知识图谱嵌入,融合外部知识改进文本表示并对主题化的数据进行段落分割;
对于段落分割处理后的数据,标注一部分变量数据,采用预训练的BERT模型对主题中的变量进行预测并标注无监督数据;
对标注后的新数据集,对每个主题中自变量和因变量,分别进行主题时序分析和主题情感倾向分析,计算自变量和因变量之间的关联性,得到情感分析结果。
2.如权利要求1所述的基于深度学习的主题建模与情感分析方法,其特征在于,采用基于BERTopic的神经主题建模将数据主题化,包括如下步骤:文本嵌入阶段,将预处理后的文本数据进行语句嵌入和词嵌入,将嵌入后向量进行拼接得到文本数据的高维向量表示;
动态确定降维维度,对嵌入文本降维;
对降维后的数据采用层次密度聚类算法进行聚类得到主题。
3.如权利要求2所述的基于深度学习的主题建模与情感分析方法,其特征在于:动态确定降维维度,对嵌入文本降维,包括如下步骤;
将嵌入文本的高维向量映射为不同维度的低维向量;
基于密度的聚类算法计算不同低维向量和原始数据主题标签的分布距离,从而确定最佳维度;
按照最佳维度,采用均匀流形逼近与投影算法对嵌入文本进行降维,得到低维特征。
4.如权利要求1所述的基于深度学习的主题建模与情感分析方法,其特征在于:计算聚类数据和相邻噪声的一致性,对主题中的数据进行优化,具体的步骤如下:根据每个主题中的低维特征分布,计算每个主题中的聚点;
根据数据主题内数据分布到主题内聚点的最大距离,选择最大距离范围内的所有噪声数据,采用ELMO模型编码噪声数据并重新编码划分,得到优化后的主题;
对优化后的主题进行关键词提取,采用基于类的词频‑逆文档频率对主题进行主题词挖掘,提取主题中的高频关键词;
通过对挖掘得到的主题的数据内容进行分析,将主题划分为技术性主题和社会性主题。
5.如权利要求1所述的基于深度学习的主题建模与情感分析方法,其特征在于,段落分割包括如下步骤:对输入文档进行分句,分割后的字符序列通过输入表示获得字向量、位置向量和段向量;
针对每个句子,通过知识图谱编码得到知识向量,并进行元素求和,得到最终的字符特征;
将得到的字符特征输入到BERT编码器进行编码,得到字符特征;
将编码器输出的字符特征映射到每个句子,通过均值池化每个句子的字符特征来获得最终的句子特征;
每个句子编码后的句子特征通过输出层以及激活函数映射,从而确定每个句子是否是段落边界。
6.如权利要求1所述的基于深度学习的主题建模与情感分析方法,其特征在于,还包括对情感分析结果可视化的方法,如下:可视化高频关键词的出现频率;
统计每个主题下的情感类别,通过百分比饼状图动态展示主题情感分布;
分析不同时间段下主题的演变规律,可视化时序主题的关注度变化和情感分布变化;
根据主题聚类动态生成二维空间距离分布,以树状图可视化相近主题和父类主题。
7.基于深度学习的主题建模与情感分析系统,其特征在于,包括:数据预处理模块,被配置为获取待分析的无标签文本数据集,进行预处理;
神经主题建模模块,被配置为针对预处理后的数据基于深度学习的特征融合方式进行文本嵌入,动态确定降维维度对嵌入文本降维,对降维后的数据进行聚类得到主题;
神经主题建模模块,还被配置为筛选出与主题相邻分布的噪声数据,计算主题数据和相邻噪声的一致性,针对每个主题重划分噪声数据进行主题优化;
主题情感分析模块,还被配置为将划分主题后的待分析数据,依次进行变量定义、基于知识图谱嵌入进行段落分割、变量标注和设计时序分析提取主题的时间变化和主题发展特征的连续性,分析主题的情感总体倾向,得到情感分析结果,具体步骤包括:按照统计学方法将数据定义为自变量和因变量;
在SeqModel段落分割模型中引入知识图谱嵌入,融合外部知识改进文本表示并对主题化的数据进行段落分割;
对于段落分割处理后的数据,标注一部分变量数据,采用预训练的BERT模型对主题中的变量进行预测并标注无监督数据;
对标注后的新数据集,对每个主题中自变量和因变量,分别进行主题时序分析和主题情感倾向分析,计算自变量和因变量之间的关联性,得到情感分析结果。
8.一种电子设备,其特征在于,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成权利要求1‑6任一项所述的基于深度学习的主题建模与情感分析方法中的步骤。
9.一种计算机可读存储介质,其特征在于,用于存储计算机指令,所述计算机指令被处理器执行时,完成权利要求1‑6任一项所述的基于深度学习的主题建模与情感分析方法中的步骤。