1.一种构建互联网短文本情绪标注语料库的方法,其特征在于,包括以下步骤:(1)、获取短文本组成文本集合
从互联网社交平台上下载发布的短文本,再将短文本以字符串的格式保存在文本集合;
(2)、文本集合预处理
(2.1)、机器翻译
设置翻译器的源语言类别,再通过翻译器将所有短文本转换成字符串;
(2.2)、移除标识用户名
通过正则匹配删除字符串中存在着对情绪指向无影响的标识用户名,得到匹配字符串;
(2.3)、去除标点符号,数字和特殊字符将匹配字符串中的全部非英文字符内容并全部替换成空格,返回清理后的字符串;
(2.4)、删除长度不超过3的字符串;
(3)、词语匹配及权重计算
(3.1)、建立初始语料库
初始语料库的每一行用于存放一条短文本,在每一行中又包括多个字段,具体包括:字段1为原始文本,字段2为步骤(2)最终得到的字符串,字段3为最终的情感极性,默认为0,字段4为最终的情绪倾向,默认为0,字段5为该短文本的情感权重向量,记为v,维度为2,用于保存积极Positive、消极Negative的权重值,默认值v=(0,0),字段6为该短文本的情绪权重向量,记为q,维度为8,用于保存愤怒Anger、期盼Anticipation、恶心Disgust、恐惧Fear、快乐Joy、悲伤Sadness、惊喜Surprise、信任Trust的权重值,默认值q=(0,0,0,0,0,0,0,
0);
(3.2)、词语匹配
将步骤(2)最终得到的字符串切分的若干个单词的集合,并按照顺序将单词标记为w1,w2,w3,…,wl,将第i个单词wi在情绪词典中进行匹配,如果内容完全一致的,则将wi在情绪词典中对应的Positive权重值记为pi,Negative权重值记为ni,Anticipation权重值记为pi1,Joy权重值记为pi2,Surprise权重值记为pi3,Trust权重值记为pi4,Anger权重值记为ni1,Disgust权重值记为ni2,Fear权重值记为ni3,Sadness权重值记为ni4;否则,将其对应的权重值pi,ni,pi1,pi2,pi3,pi4,ni1,ni2,ni3,ni4均记为0;最后再更新初始语料库的对应行;其中,i=1,2,…,l;
(3.3)、权重计算
计算短文本的情感权重向量v和情绪权重向量q;
(3.4)、计算情感极性
(3.4.1)、计算正负情感极性的比例值:其中,Mp代表积极情感极性的比例值,Mn代表消极情感极性的比例值;v0和v1分别代表情感权重向量v的第一项和第二项,且满足:(3.4.2)、设定强度阈值k0=0.25;如果Mp≥k0+δ,则将初始语料库中字段3的值设置为
1,代表积极,其中,δ为常数,取值为0.5;如果Mn≥k0+δ,则将初始语料库中字段3的值设置为
2,代表消极;否则,保持初始语料库中字段3的默认值为0;
(3.5)、计算情绪倾向
(3.5.1)、计算情绪权重总和M;
(3.5.2)、计算每个情绪对应的权重比例;
(3.5.3)、将所有的权重比例组成权重值的集合m,再标记出集合m中的最大值mmax和最小值mmin;
(3.5.4)、设定极性阈值上限k1和极性阈值下限k2;计算极差r=mmax‑mmin,如果r≥k1且情绪倾向权重值为mmax的情绪倾向只有一个时,则将初始语料库中字段4的值为情绪倾向值为mmax的情绪倾向对应的数值;
如果r≤k2时,则保持初始语料库中字段4的默认值为0;
如果k1<r<k2或r≥k1且情绪倾向权重值为mmax的情绪倾向不唯一时,则将初始语料库中字段4的值设置为9,表示需要进一步人工核查;
(3.6)、人工核查
在语料库中,筛选出字段4的值设置为9项,参考其情绪向量及原始文本信息,进行人工核查确定出最终的情绪倾向,并将最终确定的情绪倾向对应的数值更新至该项的字段4;
(4)、整理语料库
经过上述步骤后,完成初始语料库的更新,然后保留更新后的语料库中的字段1,字段3以及字段4,即原始文本,情感极性,情绪倾向3项内容,删除其余信息;最终得到带有情感极性标注和情绪倾向标注的短文本语料库。
2.根据权利要求1所述的一种构建互联网短文本情绪标注语料库的方法,其特征在于,所述步骤(4)中,情感极性标注分为0、1、2共计3类,分别对应中性,积极,消极三种情感极性;情绪倾向标注分为0、1、2、3、4、5、6、7、8共计9类,其中包含8类情绪:Anger、Disgust、Fear、Sadness、Anticipation、Joy、Surprise、Trust;无情绪的为Neutral。