利索能及
我要发布
收藏
专利号: 2017110969689
申请人: 电子科技大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-17
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种面向特征词粒度的领域情感词典构建方法,其特征在于,包括以下步骤:

步骤1:将商品的评论语料库按商品领域进行分割得到领域语料库,每个领域语料库中的评论和评分都是关于同一类商品的评价;

步骤2:对领域语料库中的每条评论进行预处理,并根据依存关系和词性搭配规则提取<特征词,情感词>词对;

步骤3:根据设置的转折词集合和否定词集合,分析<特征词,情感词>词对在评论语句中的约束关系,构建词对之间的约束关系矩阵E,具体步骤如下:步骤3.1:依次建立每条评论所包含的<特征词,情感词>词对的约束关系矩阵,矩阵元素为两个词对的约束关系值,两个词对的约束关系判断方法如下:首先判断词对之间是否有转折关系,如果存在转折关系,则转折词前面的所有词对与转折词后面的所有词对之间的约束关系均为转折关系,存在转折关系的两个词对的约束关系值为-1;如果两个词对不存在转折关系,则两个词对的默认约束关系值设置为+1;然后判断每个<特征词,情感词>词对是否有否定词修饰,如果存在一个否定词修饰,则将该词对与其他所有词对的约束关系值乘以-1;如果不存在否定词修饰,则保持该词对与其他所有词对的约束关系值不变;如果存在双重否定的修饰关系,则将该词对与其他所有词对的约束关系值不变;

步骤3.2:将所有评论的约束关系矩阵按相同词对进行合并,得到包含所有词对的约束关系矩阵E,这个新的约束关系矩阵是一个对称矩阵,每行或每列的元素个数为所有词对的个数m;如果一个词对与某些词对没有在评论中同时出现过,则约束关系值为0;如果两个词对在评论中同时出现过,则对应的元素值为这两个词对在所有出现过的评论对应的约束关系矩阵中的约束关系值求和;

步骤4:基于公式(1)计算任意两个词对相似度,其中sim(A,B)表示词对A和词对B的相似度,num(A,B)表示词对A和词对B在评论中同时出现的次数,num+(A,B)表示两个词对在评论中约束关系值为+1的次数,num-(A,B)表示两个词对在评论中的约束关系值为-1的次数,link(A)表示与词对A同时出现过的词对的集合,link(B)表示与词对B同时出现过的词对的集合,i表示对应集合中的词对,得到词对的相似度矩阵;

步骤5:分别根据词对之间的约束关系值和相似度计算词对之间的转移概率矩阵,这里的转移概率矩阵包括正向转移概率矩阵和负向转移概率矩阵,首先计算约束关系值大于0的词对之间的正向传播概率矩阵,约束关系值大于0说明两个词对的极性值是相同的,计算公式如(2)所示,这里t+(i,j)表示词对i到词对j的正向转移概率,P(i)表示与词对i极性相同的词对集合;然后计算约束关系值小于0的词对之间的负向转移概率矩阵,计算公式如(3)所示,这里t-(i,j)表示词对i到词对j的负向转移概率,N(i)表示与词对i极性相反的词对集合;

步骤6:基于一个双向标签传播算法计算每个<特征词,情感词>词对的极性值,并根据每个词对的极性值来标记词对的情感极性,如果词对的极性值大于0,则对应的<特征词,情感词>词对标记为褒义词;如果词对的极性值小于0,则对应的<特征词,情感词>词对标记为贬义词,具体步骤如下:步骤6.1:根据正向和负向的转移概率矩阵建立<特征词,情感词>词对的转移概率图,图中的每个节点对应一个词对,如果两个词对对应的正向转移概率或者负向转移概率的值不为0,则两个词对对应的节点之间建立一条有向边,边的权值为两个对应节点的转移概率,如果两个词对的约束关系值大于0,则边的权值为两个词对的正向转移概率,如果两个词对的约束关系值小于0,则边的权值为两个词对的负向转移概率;

步骤6.2:在词对的转移概率图中确定种子节点,这些种子节点对应的词对有确定的极性值,定义褒义词对的极性值为+1,贬义词对的极性值为-1;种子词对的选择采用手动完成,包括若干极性值为+1的词对和若干极性值为-1的词对;

步骤6.3:设置转移概率图中每个<特征词,情感词>词对的初始极性,其中具有正极性的种子词对的初始极性标记为+1,具有负极性的种子词对的初始值标记为-1,其余词对的初始极性值标记为0,记为 这里 表示词对i的初始的极性值,m表示词对的个数;

步骤6.4:启动标签的概率传播过程,在双向标签传播中每一轮传播包括一个正向的传播过程和一个负向的传播过程,在正向传播中,将每个词对i的极性值向其他节点j传播,传播概率基于节点i到节点j的正向转移概率t+(i,j),正向传播完成后,每个词对的极性值更新公式如(4)所示,这里γ为系统设置的参数,表示更新时来自于其他节点的传播概率值在更新时占的比例,n表示执行标签传播扩散的轮数,初始时n=0;正向传播完成后,再执行负向的传播过程,在负向传播中,节点间的传播概率基于负向转移概率t-(i,j),每个节点的极性值更新公式如(5)所示,这里β为系统设置的参数,表示更新时来自于其他节点的传播概率值在更新时占的比例;最后将负向传播完成后每个词对的极性值作为本轮双向传播后每个词对的极性值,步骤6.5:在一轮传播完成之后,对于种子词对,维持初始极性不变,因此重新设置种子词对的极性值为,

步骤6.6:重复执行步骤6.4和步骤6.5直至每个词对的极性值收敛,获得最终每个词对的极性值集合,记为 然后根据每个词对的极性值来判断词对的正负极性,如果词对的极性值大于0,则对应的<特征词,情感词>词对标记为+1,判断为褒义词对;

如果词对的极性值小于0,则对应的<特征词,情感词>词对标记为-1,判断为贬义词对。