1.一种内容标注方法,其特征在于,所述方法包括:识别目标文件的文件类型,并基于所述文件类型确定目标文本,其中,若所述文件类型为视频类型,获取所述目标文件的弹幕数据作为所述目标文本,若所述文件类型为文字类型,获取所述目标文件的评论数据作为所述目标文本;将所述目标文本转换为数值数据,并对所述目标文本进行分词,得到若干个语素单元,将所述语素单元组合形成所述数值数据的词袋;将所述数值数据分为训练集和测试集,通过所述训练集和所述词袋搭建情绪分类模型,根据所述情绪分类模型对所述测试集进行情绪预测;获取各个所述语素单元在所述目标文本中的频数,根据所述频数计算所述语素单元的热度信息;根据所述情绪预测的预测结果和所述热度信息,按照预设的格式生成标注信息,并按照所述标注信息对所述目标文件进行标注;
所述根据所述情绪预测的预测结果和所述热度信息,按照预设的格式生成标注信息,包括:根据所述预测结果对各个所述语素单元设置不同的显示颜色,其中,所述预测结果包括正面、中性和负面;根据所述热度信息,对各个所述语素单元的显示颜色设置不同的明度,得到标注颜色;将所述语素单元的所述标注颜色作为所述语素单元的所述标注信息;
所述通过所述训练集和所述词袋搭建情绪分类模型,包括:利用词袋,搭建基于连续词袋模型的文本预训练模型,通过文本预训练模型提取训练集的文本数据特征,并通过初始支持向量机分类模型搭建文本分类模型,根据文本数据特征对训练集进行文本属性的情绪分类,并根据预设的标准分类结果对模型输出的情绪分类结果进行准确度评分,根据准确度评分结果对文本分类模型进行修正,得到情绪分类模型。
2.根据权利要求1所述的内容标注方法,其特征在于,所述对所述目标文本进行分词,得到若干个语素单元,包括:根据预设的词库建立词袋模型;通过所述词袋模型对所述目标文本进行背景词提取,并对所述背景词进行相似关系的语义识别;将相似度满足预设的相似阈值的所述背景词放入同一个所述语素单元,从而得到若干个所述语素单元。
3.根据权利要求1所述的内容标注方法,其特征在于,所述按照所述标注信息对所述目标文件进行标注之后,还包括:根据所述热度信息对所述语素单元进行排序;将所述语素单元对应的中心词按照排序顺序依次显示在第一列表中。
4.根据权利要求1所述的内容标注方法,其特征在于,所述按照所述标注信息对所述目标文件进行标注之后,还包括:响应于查询指令,识别所述查询指令中携带的查询信息;识别与所述查询信息匹配的语素单元,以及所述语素单元在对应的目标文件中的热度信息;
根据所述热度信息,按照由高到低的顺序将所述目标文件显示在第二列表中。
5.根据权利要求2所述的内容标注方法,其特征在于,所述对所述背景词进行相似关系的语义识别,包括:对所述背景词进行停用词筛选,并对筛选后的所述背景词进行相似关系的语义识别。
6.根据权利要求1所述的内容标注方法,其特征在于,所述识别目标文件的文件类型,包括:提取当前页面的结构化数据;根据所述结构化数据的对象属性识别所述文件类型。
7.一种内容标注装置,其特征在于,包括:文件类型识别模块,用于识别目标文件的文件类型,并基于所述文件类型确定目标文本,其中,若所述文件类型为视频类型,获取所述目标文件的弹幕数据作为所述目标文本,若所述文件类型为文字类型,获取所述目标文件的评论数据作为所述目标文本;词袋生成模块,用于将所述目标文本转换为数值数据,并对所述目标文本进行分词,得到若干个语素单元,将所述语素单元组合形成所述数值数据的词袋;情绪预测模块,用于将所述数值数据分为训练集和测试集,通过所述训练集和所述词袋搭建情绪分类模型,根据所述情绪分类模型对所述测试集进行情绪预测;热度计算模块,用于获取各个所述语素单元在所述目标文本中的频数,根据所述频数计算所述语素单元的热度信息;内容标注模块,用于根据所述情绪预测的预测结果和所述热度信息,按照预设的格式生成标注信息,并按照所述标注信息对所述目标文件进行标注;
所述根据所述情绪预测的预测结果和所述热度信息,按照预设的格式生成标注信息,包括:根据所述预测结果对各个所述语素单元设置不同的显示颜色,其中,所述预测结果包括正面、中性和负面;根据所述热度信息,对各个所述语素单元的显示颜色设置不同的明度,得到标注颜色;将所述语素单元的所述标注颜色作为所述语素单元的所述标注信息;
所述通过所述训练集和所述词袋搭建情绪分类模型,包括:利用词袋,搭建基于连续词袋模型的文本预训练模型,通过文本预训练模型提取训练集的文本数据特征,并通过初始支持向量机分类模型搭建文本分类模型,根据文本数据特征对训练集进行文本属性的情绪分类,并根据预设的标准分类结果对模型输出的情绪分类结果进行准确度评分,根据准确度评分结果对文本分类模型进行修正,得到情绪分类模型。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。