利索能及
我要发布
收藏
专利号: 2020102266861
申请人: 中南林业科技大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-05-07
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种大数据中文文本无载体信息隐藏方法,其特征在于,包括以下步骤:步骤1:对大数据中文文本进行预处理;

预处理是载体的码本构建,码本包括词语索引、文本‑主题分布索引和文本‑词语TF‑IDF码本,发送方和接收方均需要进行预处理,采用同一方法对同一公开文本库处理,双方各有一份码本;

词语索引由文本库中包含的所有词语、对应词频及词频排序序号构成,用于在信息隐藏过程中将秘密信息转换为易于表达的数字编号;

文本索引由文本标签号和文本的主题聚类分布构成;

文本‑词语TF‑IDF码本由文本标签号,文本内词语ID及对应词语在该文本中的TF‑IDF特征值构成,它用于定位秘密信息所在的文本及秘密信息所在该文本中的所属词语;

步骤2:发送方对秘密信息进行切分处理,然后通过词语索引表将秘密信息转换为关键词ID,并在大数据文本中搜索包含秘密信息关键词的文本;

秘密信息指发送方需要给接收方传送的原始信息;

步骤3:形成索引标签和随机数,实现对秘密信息的加密处理;

将搜索到的文本根据对应文本的主题分布和对应文本中的关键词的TF‑IDF特征形成索引标签,同时引入随机数控制秘密信息关键词顺序;

步骤4:将随机数与索引标签一起作为加密信息发送给接收方;

接收方基于随机数和索引标签能解码出原始的秘密信息;

词语索引构建方法如下:

步骤11:使用分词工具对文本库中每个文本进行分词,然后在Spark平台上对所有词语进行词频统计;

步骤12:对词语的词频按降序排名,其排名作为词语的ID号,并基于词语、对应词频及ID号构建词语索引码本;

文本‑主题分布索引构建方法如下:

步骤21:使用分词工具对文本库中每一个文本进行分词,为保证每篇文本能唯一表示,每篇文本分词之后对文本对象生成哈希值作为文本的标签;每一篇文本在计算机中需要被唯一表示,生成的哈希值可以作为文本标签;

步骤22:在Spark平台上使用大数据文本下的LDA主题模型算法对每一个分词后的文本进行主题聚类,得出每篇文本的主题聚类分布;

步骤23:将每个文本的标签和文本主题分布一一对应构成文本索引;

文本‑词语TF‑IDF码本构建方法如下:

步骤31:计算每篇文本分词后的词语TF‑IDF特征,将文本以及词语TF‑IDF特征作为输入给LDA主题模型;

步骤32:LDA模型计算时会得到每篇文本的内的词语ID序列和对应TF‑IDF特征;

步骤33:以文本为单位,将每篇文本下的词语及对应TF‑IDF特征构建为文本‑词语TF‑IDF码本;

步骤2中,对隐秘信息的切分的过程为:采用Hanlp分词工具对秘密信息切分,将整个秘密信息M分割为多个关键词,如下式所示:W=Hanlp(M)={w1,w2,…,wk};

其中wi(1≤i≤k)称为关键词;

切分后的关键词通过全局词语索引WCR转换为关键词ID即wid‑i,即有wid‑i=WCR(wi);

步骤2中,在大数据文本中搜索包含秘密信息关键词的文本时,为保证各个秘密关键词能够被接收方还原,设计了一个递增随机因子机制控制秘密关键词传递的顺序,算法步骤为:

1)、为保证关键词能够有序地被接收方还原,对每个关键词在隐藏过程中都加入递增随机因子random;即每查询一个关键词后生成一个随机整数,后续关键词的查询中依次在前一个随机整数基础上随机增加一个正整数,以此保证递增;

2)、对k个关键词建立k个文本集合 依次检索

包含widi(1≤i≤k)的文本label,将其加入对应 中,同时生成并记录该关键词id和随机因子,即 中包含widi,randomi,LABELSi,LABELSi指的是包含widi的所有文本label的集合;

对索引的加密是指构建一种基于LDA主题分布和词语TF‑IDF特征的混合索引;步骤为:第1步:确定最终含密文本,根据文本索引表将含密文本label转换为文本主题分布,记作Distribution;

第2步:确定含密文本中秘密关键词的TF‑IDF特征,增加秘密关键词在整个文本库中的词频作为辅助参考因子,故使用含密文本中秘密关键词的TF‑IDF特征、秘密关键词的全局词频及对应生成的随机数共同作为TF‑IDF索引,用于检索文本内的词语,记作TFIndex;

第3步:合成混合索引并加密,将Distribution和TFIndex合并,采用RC4加密算法对其加密生成最后发送的索引;

接收方收到随机数和索引标签后,对加密索引解密及按索引构建协议拆分即可还原秘密信息;

具体解密过程:

步骤1:解密索引,接收方提取解密混合索引并获得Distribution与TFIndex;

步骤2:获取隐藏文本,根据主题分布索引在文本索引码本中获得隐藏文本的label;

步骤3:获取关键词ID,在获得的文本中根据TFIndex内的wordtf,wordcount,在文本‑词语码本中获得关键词ID;wordtf指词的TF‑IDF特征,wordcount指词的词频;

步骤4:信息重组及还原,对步骤3中提取的关键词id的随机因子升序排序即可重组信息,然后根据词语索引码本将关键词id还原为文本信息,最终得到原始的秘密信息文本。