1.一种基于语义角色位置映射的文本水印嵌入方法,其特征在于包括如下步骤:
1)对水印信息进行预处理,将水印字符转换成由码元构成的信息串;
2)通过自然语言处理技术找出文本中语义角色,得到语义角色的位置信息,且将语义角色类型与表示水印信息的码元一一对应;
3)逐个取出水印信息串中的码字,将该码字与所对应类型语义角色的一个位置相映射,对所有码字进行映射,完成水印的嵌入。
2.根据权利要求1所述的基于语义角色位置映射的文本水印嵌入方法,其特征在于所述语义角色包括表示动作的施事的角色A0,表示动作的影响的角色A1以及关系相对模糊的角色ADV。
3.根据权利要求2所述的基于语义角色位置映射的文本水印嵌入方法,其特征在于所述步骤1)中的水印信息进行预处理包括如下步骤:
1-1)采用Unicode编码,将水印字符转换成十六进制信息;
1-2)运用Huffman编码对十六进制信息中的码元数量进行压缩,将十六进制的Unicode码串转换成由0、1、2三种码元表示的Huffman编码,与A0、A1、ADV三种语义角色相匹配。
4.根据权利要求3所述的基于语义角色位置映射的文本水印嵌入方法,其特征在于所述步骤2)中,通过语言技术平台LTP处理确定和标记文本中的语义角色,LTP的处理结果为一个包含文本中句子成分语义角色关系的XML格式的文件,所述文件包含若干用于标明各种句段关系、句法关系、语义角色的结点标签,所述结点标签包括para、sent、word、arg,每个类别的结点标签均包含用于标明序号的id属性。
5.根据权利要求4所述的基于语义角色位置映射的文本水印嵌入方法,其特征在于查找选定的语义角色并标记其位置的方法具体包括如下步骤:
2-1)对所述XML文件进行解析遍历,定位word结点;
2-2)接着遍历此word结点下的arg结点内的type属性,判断其是否为指定查找的类型所述类型即为A0、A1、ADV,如果是,则标记出该语义角色的位置,标记语义角色位置的表达式如下:其中,p表示para属性,s表示sent,a表示arg;
2-3)重复上述步骤2-1)、2-2),标记出文本中所有的三种语义角色A0、A1、ADV的位置信息,分别对应地存入三个不同的集合L1、L2、L3中。
6.根据权利要求5所述的基于语义角色位置映射的文本水印嵌入方法,其特征在于所述步骤3)具体包括如下步骤:
3-1)让水印信息中的三种码元与三种语义角色类型一一对应,即A0对应0,A1对应1,ADV对应2;
3-2)逐个取出水印信息串中的码字,将该码字与所对应类型语义角色的的一个位置相映射,即码字0映射为L1集合中的一个位置,码字1映射为L2集合中的一个位置,码字2映射为L3集合中的一个位置,将每个码字映射的位置信息读出,依次存放于一位置文件中;
3-3)重复上述过程,将水印信息串中的所有码字均映射为L1、L2、L3集合中的一个位置,映射完成即实现了水印的嵌入,最终得到一个存放了三种语义角色位置信息的位置文件。
7.根据权利要求6所述的基于语义角色位置映射的文本水印嵌入方法,提供一种基于语义角色位置映射的文本水印提取方法,其特征在于包括:根据嵌入水印时得到的语义角色的位置信息,找到文本中该位置的语义角色,再根据语义角色与水印信息码元的对应关系,反向映射得到由所述码元表示的水印信息串,最终将其转换成原始水印信息。
8.根据权利要求7所述的基于语义角色位置映射的文本水印提取方法,其特征在于具体包括如下步骤:a)将需要检测水印的文档提交LTP平台进行语义角色标注处理,得到包含文本中句子成分语义角色关系的XML文件;
b)打开嵌入水印时形成的所述位置文件,依次取出一个位置信息,根据该位置信息,在所述XML文件中找到对应的位置,判断此位置的语义角色的类型,根据语义角色类型进行反向映射或译码,如果语义角色类型为A0,则译码为0;如果语义角色类型为A1,则译码为1;如果语义角色类型为ADV,则译码为2,直到所有的位置信息全部反向映射完毕,即得到嵌入的水印信息串。