1.一种词向量获取方法,其特征在于:包括以下步骤:
收集带有情感标签的用户语料,获取用户语料中词语的情感分布信息;
根据所述词语的情感分布信息计算词语为设定情感标签的概率,基于Glove模型,以所述词语为设定情感标签的概率作为模型参数,构建情感词嵌入模型;
根据收集到的用户语料,调用所述情感词嵌入模型将用户语料中的词语映射到向量空间,获取词向量。
2.根据权利要求1所述的词向量获取方法,其特征在于:所述获取用户语料中的词语的情感分布信息的步骤包括:对所述带有情感标签的用户语料进行包括分词处理、停用词处理的预处理;
统计用户语料中的词的词频信息,并给每个词标号,形成该语料对应的词典;
根据所述预处理后的用户语料与该语料对应的词典,统计词与词的共现频数信息,获取每个词语的情感分布信息;其中,所述词语的情感分布信息包括含有该词且情感标签为积极的文本数和包含该词且情感标签为消极的文本数。
3.根据权利要求1所述的词向量获取方法,其特征在于:所述根据所述词语的情感分布信息计算词语为设定情感标签的概率,基于Glove模型,以所述词语为设定情感标签的概率作为模型参数,构建情感词嵌入模型的步骤包括:在GloVe模型基础上,考虑情感二分类,利用词语积极情感概率的比值反映词语的情感差异性,构建函数F:其中,Bi表示词Wi的情感标签是积极的概率,将1-Bi表示词Wi的情感标签是消极的概率,Bj表示词Wj的情感标签是积极的概率,将1-Bj表示词Wj的情感标签是消极的概率,wi、wj分别为词Wi、Wj的词向量,si、sj分别为词Wi、Wj对应的情感偏置向量;
根据所述函数F满足群 和群 之间的群同态,构建词嵌入模型,其中,所述词嵌入模型的损失函数为:其中,wi为中心词对应的词向量, 为上下文词对应的词向量,si为词Wi对应的情感偏置向量,Pik表示在词语Wi的上下文中词语Wk出现的概率,Bi表示词Wi的情感标签是积极的概率,V表示词汇表中词语的个数。
4.根据权利要求1所述的词向量获取方法,其特征在于:所述情感词嵌入模型利用极大似然估计获取所述情感词嵌入模型中模型参数的估计值,将所述估计值代入所述情感词嵌入模型,获得基于极大似然估计的情感词嵌入模型,其中,所述基于极大似然估计的情感词嵌入模型的损失函数为:其中,wi为中心词对应的词向量, 为上下文词对应的词向量,si为词Wi对应的情感偏置向量,xik表示在词语Wi的上下文中词语Wk出现的频数,xi表示在词语Wi的上下文中所有词语出现的频数,ti1表示含有词Wi且情感标签为积极的文本数,ti表示含有词Wi的文本数,V表示词汇表中词语的个数。
5.根据权利要求1所述的词向量获取方法,其特征在于:所述情感词嵌入模型利用贝叶斯估计获取所述情感词嵌入模型中模型参数的估计值,将所述估计值代入所述情感词嵌入模型,获得基于贝叶斯估计的情感词嵌入模型,其中,所述基于贝叶斯估计的情感词嵌入模型的损失函数为:其中,wi为中心词对应的词向量, 为上下文词对应的词向量,si为词Wi对应的情感偏置向量,Pik表示在词语Wi的上下文中词语Wk出现的概率,Bi表示词Wi的情感标签是积极的概率,cik表示log Pik的贝叶斯估计值,即对log Pik求关于Pik后验概率的期望:对 进行泰勒展开获得:
其中,
nk表示词k在训练文本中的出现次数,λ1是调节因子,xik表示进行xi次独立随机试验抽取上下文词第k种结果出现的次数;
ei表示log Bi的贝叶斯估计值,即对log Bi求关于Bi后验概率的期望:对 进行泰勒展开获得:
其中,
mk表示情感标签为k的文本数,λ2是调节因子,tik表示含有词Wi且情感标签为k的文本数,V表示词汇表中词语的个数。
6.根据权利要求1所述的词向量获取方法,其特征在于:所述根据收集到的用户语料,调用所述情感词嵌入模型将用户语料中的词语映射到向量空间,获取词向量的步骤包括:根据预设的学习率和迭代次数,重复利用随机梯度下降法分别对所述基于极大似然估计的情感词嵌入模型或所述基于贝叶斯估计的情感词嵌入模型进行优化,获取词向量。
7.一种计算机可读存储介质,其上储存有计算机程序,其特征在于:该计算机程序被处理器执行时实现如权利要求1-6任意一项所述的词向量获取方法的步骤。
8.一种词向量获取装置,其特征在于:包括存储器、处理器以及存储在所述存储器中并可被所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-
6中任意一项所述的词向量获取方法的步骤。