1.基于句内词对关系和上下文用户特征的反讽检测方法,其特征在于包括如下步骤:步骤1、对需要进行反讽检测的评论文本进行预处理;
步骤2、用自注意力机制对每个单词进行关联建模,获得句内注意力表示;
步骤3、用Paragraph Vector将每个用户的评论以文档向量的形式表示,为每个用户生成书写风格特征向量;
步骤4、根据用户发布的文本,通过预训练的性格检测CNN模型判断用户的性格特征;
步骤5、用典型相关分析算法对用书写风格特征和用户个性特征进行特征融合,获取融合特征;
步骤6、用LSTM对每个文本评论进行序列化建模,得到句子表示特征;
步骤7、连接步骤4、5、6中学习到的特征,对句子是否反讽进行判断。
2.根据权利要求1所述的基于句内词对关系和上下文用户特征的反讽检测方法,其特征在于步骤1具体实现如下:
1.1.将在整个语料库中仅出现一次的单词删除并使用UNK标记进行替换;
1.2.删除少于5个单词的评论;
1.3.用W2V词向量模型将每一条评论表示为词向量形式输入序列 ni是句子长度;
步骤2具体实现如下:
2.1.对输入序列 中的每个单词对关系(词与词之间)进行建模:其中,
是需要通过训练学习
的参数; 表示拼接操作;sxy表示单词对中的两个单词之间的近似度分值,s是个对称矩阵;
2.2.在对称矩阵s上逐行执行最大池化操作,计算得到注意力向量a=softmax(max s), 是表示自注意力权重的向量;
2.3.使用向量a来学习输入序列 的加权表示:是输入序列的内部表示,且
3.根据权利要求2所述的基于句内词对关系和上下文用户特征的反讽检测方法,其特征在于步骤3具体实现如下:
3.1.每条评论文本后添加特殊分隔符
3.2.收集每个用户的所有文本,创建成一个文档;
3.3.将每个用户所发表的评论作为输入,ui表示第i个用户,共Nu个用户;
3.4.通过Paragraph Vector得到每个用户对应的评论特征di;
3.5.把所有用户的评论都映射到矩阵 中,评论中的单词都被映射到矩阵ds是词向量维度;
3.6.给定用户ui的评论文档 共ni个单词,在窗口大小为k的滑动窗口内对文档向量和词向量计算平均对数概率:
3.7.分别对滑动窗口内相邻的上下文词向量和文档向量di求平均,再应用softmax操作得到其中, 和 是softmax的参数,n是单词个数,h(·)由文档向量D中的di和评论单词矩阵W中的词向量wt-k,...,wt+k求平均所得;
3.8.矩阵D学习到用户的文档表示向量;该文档表示向量可以代表用户书写风格特征di。
4.根据权利要求3所述的基于句内词对关系和上下文用户特征的反讽检测方法,其特征在于步骤4具体实现如下:
4.1.对于用户ui,遍历ui所有的vi条评论 将它们作为预训练性格检测CNN模型的输入;
4.2.激活CNN最后的隐藏层向量,获得性格特征向量
4.3.计算该用户发表的所有评论对应的性格特征的期望,得到该用户的整体性格特征表示
5.根据权利要求4所述的基于句内词对关系和上下文用户特征的反讽检测方法,其特征在于步骤5具体实现如下:
5.1.采用典型相关分析算法对步骤3.8中的用户书写风格特征di和步骤4.3中的用户个性特征pi进行特征融合,得到最终的用户特征 A1和A2是训练参数;把 记作
6.根据权利要求5所述的基于句内词对关系和上下文用户特征的反讽检测方法,其特征在于步骤6具体实现如下:
6.1.用一个初始的LSTM模型对固定长度的句子输入进行编码,如果句子编码后的向量长度不够,则末尾用数字0进行补齐;
6.2.LSTM隐藏层的输出是隐藏层特征矩阵[h1,h2,...,hN],表示句子级别特征;隐藏层特征hi,i∈[1,ni]与词向量wi是一一对应的关系;
6.3.将LSTM序列建模后得到的最后一个隐藏层表示记作
7.根据权利要求6所述的基于句内词对关系和上下文用户特征的反讽检测方法,其特征在于步骤7具体实现如下:
7.1.利用非线性投影ReLU来学习用户特征 自注意力层的输出结果 和LSTM的隐藏层输出 的 连接表示 : 其中 ,
7 .2 .把 vi 传入 so ft ma x 层进 行分 类 :是需要训练的参数; 是基于句内词对关系和上下文用户特征的反讽模型的输出结果。