1.一种基于主谓语编码的文本水印嵌入方法,其特征在于包括
1)将水印信息的每个字符用Unicode编码表示,形成一个Unicode码串;
2)检测出待嵌入文本中语句的主谓语,存放于一集合中;
3)根据检测出的主谓语数量,将Unicode码串分成若干段,每一个主谓语用其中的一段来编码表示,对每一个主谓语对应的Unicode码段给定一个编号,用于提取水印时根据编号拼接Unicode码串;
4)依次存储每个主谓语、该主谓语对应的Unicode码段以及该主谓对应的编号,形成一个码本,完成编码,实现水印的嵌入。
2.根据权利要求1所述的基于主谓语编码的文本水印嵌入方法,其特征在于所述Unicode编码采用UTF-16格式,每个字符为4位十六进制数,形成一个十六进制的Unicode码串。
3.根据权利要求1所述的文本水印嵌入方法,其特征在于所述步骤2)中检测出待嵌入文本中的主谓语包括如下步骤:将提交待嵌入水印的文本转换为字符串的形式;
B)将待嵌入水印的文本的字符串提交至语言技术平台LTP进行依存句法分析,得到一个包含文本中句子成分依存关系的XML格式的字符串;
C)将得到的XML格式的字符串转换为XML文件,对XML文件进行DOM解析,根据XML文件中句子成分关系属性的核心关系和主谓关系之间的联系,循环遍历文件,查找出每句的主谓语。
4.根据权利要求1所述的基于主谓语编码的文本水印嵌入方法,其特征在于所述码本中每一行的主谓语、Unicode码段、编号之间分别用空格隔开。
5.根据权利要求1-4任一项所述的基于主谓语编码的文本水印嵌入方法,提出一种基于主谓语编码的文本水印的提取方法,其特征在于,包括:找出被检测的文本中的主谓语,对照嵌入水印时形成的所述码本,从码本中取出各主谓语对应的Unicode码段、编号,将Unicode码段按对应的编号的顺序拼接起来,得到代表水印信息的Unicode码串,再转换成对应的字符,形成嵌入的水印信息。
6.根据权利要求5所述的基于主谓语编码的文本水印的提取方法,其特征在于所述取出被检测文本中各主谓语对应的Unicode码段以及编号的步骤包括:将找出的被检测文本中的每个主谓语与码本中的各个主谓语逐一进行比较,若两者一致,则从码本中取出该主谓语对应的Unicode码段、编号。