1.一种课程标签的生成方法,其特征在于,包括:
采集目标课程的交互评论数据,得到初始语句;
对所述初始语句进行文本预处理,得到处理语句;
采用预设的分词方式,对所述处理语句进行分词处理,得到目标分词;
针对每个所述目标分词,基于TF-IDF算法,对所述目标分词分别进行词频的计算和逆文本频率指数的计算,并通过得到的词频和得到的逆文本频率指数,确定所述目标分词的评估值;
根据所述目标分词的评估值对所述目标分词进行排序,并从前往后选取预设阈值的目标分词,作为二级课程标签;
通过聚类的方式,将所述二级课程标签归类到预设的一级课程标签下,得到所述目标课程的目标课程标签体系。
2.如权利要求1所述的课程标签的生成方法,其特征在于,所述采集目标课程的交互评论数据,得到初始语句包括:通过链接分析的方式,确定每个评论交互楼层的楼层权重;
根据每个所述楼层权重和预设权重阈值,确定目标楼层;
基于预设的排名策略,计算每个所述目标楼层的排名值,并根据所述排名值由大到小的顺序,对所述目标楼层进行排序,得到目标楼层队列;
基于所述目标楼层队列,抓取所述目标楼层中的内容,得到所述初始语句。
3.如权利要求1所述的课程标签的生成方法,其特征在于,所述对所述初始语句进行文本预处理,得到处理语句包括:对初始语句进行大小写统一和繁体转化,得到标准文本;
对所述标准文本进行无用词提取和标注,得到标注后的处理语句。
4.如权利要求1所述的课程标签的生成方法,其特征在于,获取预设的训练语料库,并使用N-gram模型对所述预设的训练语料库进行分析,得到所述预设的训练语料库的词序列数据;
所述采用预设的分词方式,对所述处理语句进行分词处理,得到目标分词包括:对所述处理语句进行分词解析,得到M个分词序列;
针对每个所述分词序列,依据所述预设的训练语料库的词序列数据,计算每个分词序列的发生概率,得到M个分词序列的发生概率;
从M个所述分词序列的发生概率中,选取达到预设概率阈值的发生概率对应的所述分词序列,作为目标分词序列,并将目标分词序列中的每个分词,作为所述处理语句中包含的目标分词。
5.如权利要求1所述的课程标签的生成方法,其特征在于,在所述采用预设的分词方式,对所述处理语句进行分词处理,得到目标分词之后,所述课程标签的生成方法还包括:基于预设语料库,构建每个所述目标分词的基础词向量;
针对每个所述基础词向量,计算该基础词向量与其他每个基础词向量之间的空间距离,将每个所述空间距离对应的两个基础词向量作为一组词向量;
若所述空间距离小于预设距离阈值,则确定所述空间距离对应的一组词向量为近义词向量,并获取所述近义词向量对应的两个目标分词,作为一组近义词;
将每组近义词进行合并处理,得到更新后的目标分词。
6.如权利要求1至5任一项所述的课程标签的生成方法,其特征在于,所述通过聚类的方式,将所述二级课程标签归类到预设的一级课程标签下,得到所述目标课程的目标课程标签体系包括:将所述预设的一级课程标签进行词向量转化,将得到的每个词向量作为一个聚类中心;
针对每个所述二级课程标签,分别计算所述二级课程标签对应的词向量到每个聚类中心的欧式距离,作为所述二级课程标签对应的词向量的空间距离;
针对每个所述二级课程标签,获取数值最小的空间距离对应的聚类中心,作为目标聚类中心,并将所述目标聚类中心对应的预设的一级课程标签作为目标类别;
针对每个所述二级课程标签,将所述二级课程标签归类到所述二级课程标签对应的目标类别,得到所述目标课程标签体系。
7.一种课程标签的生成装置,其特征在于,包括:
数据采集模块,用于采集目标课程的交互评论数据,得到初始语句;
预处理模块,用于对所述初始语句进行文本预处理,得到处理语句;
分词模块,用于采用预设的分词方式,对所述处理语句进行分词处理,得到目标分词;
评估模块,用于针对每个所述目标分词,基于TF-IDF算法,对所述目标分词分别进行词频的计算和逆文本频率指数的计算,并通过所述词频和所述逆文本频率指数,确定所述目标分词的评估值;
排序模块,用于根据所述目标分词的评估值对所述目标分词进行排序,并从前往后选取预设阈值的目标分词,作为二级课程标签;
体系生成模块,用于通过聚类的方式,将所述二级课程标签归类到预设的一级课程标签下,得到所述目标课程的目标课程标签体系。
8.如权利要求7所述的课程标签的生成装置,其特征在于,所述数据采集模块包括:权重确定单元,用于通过链接分析的方式,确定每个评论交互楼层的楼层权重;
楼层确定单元,用于根据每个所述楼层权重和预设权重阈值,确定目标楼层;
楼层排序单元,用于基于预设的排名策略,计算每个所述目标楼层的排名值,并根据所述排名值由大到小的顺序,对所述目标楼层进行排序,得到目标楼层队列;
内容抓去单元,用于基于所述目标楼层队列,抓取所述目标楼层中的内容,得到所述初始语句;
可选地,预处理模块包括:
文本转换单元,用于对初始语句进行大小写统一和繁体转化,得到标准文本;
无用词提取标注单元,用于对所述标准文本进行无用词提取和标注,得到标注后的处理语句。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至
6任一项所述的课程标签的生成方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的课程标签的生成方法。