1.一种多尺度联合文本隐写方法,其特征在于,包括:获取文本序列和秘密信息;
将文本序列输入预构建的生成替换联合模型中,获取各单词的生成概率分布;
根据秘密信息和生成概率分布对文本序列进行隐写操作,获取第一隐写文本以及隐写记录;
根据隐写记录确定文本序列中未隐写单词,将文本序列输入预构建的生成替换联合模型中,获取各未隐写单词的替换概率分布;
根据秘密信息和替换概率分布对未隐写单词进行隐写操作,获取第二隐写文本;
根据第一隐写文本和第二隐写文本生成联合隐写文本。
2.根据权利要求1所述的一种多尺度联合文本隐写方法,其特征在于,所述生成替换联合模型的构建过程包括:获取预设数量的文本数据;
对文本数据进行预处理,基于预处理后的文本数据构建样本集;
将样本集按预设比例划分为训练集和验证集;
基于PyTorch搭建生成替换联合模型,所述生成替换联合模型包括生成模型和替换模型;
使用训练集对生成替换联合模型进行迭代训练,在迭代训练后,使用验证集对迭代训练后的生成替换联合模型进行验证,在验证后,保留损失最小的生成替换联合模型并输出。
3.根据权利要求2所述的一种多尺度联合文本隐写方法,其特征在于,所述预处理包括:对文本数据进行分割,保留分割结果中的单词并生成单词序列;
将单词序列的前n‑1位作为样本,将单词序列的后n‑1位作为标签,n为单词序列的总位数;
若样本或标签的位数小于预设位数阈值N,则在相应的样本或标签尾部通过填充符号填充,使其位数等于预设位数阈值N;
若样本或标签的位数大于预设位数阈值N,则在相应的样本或标签尾部截去单词,使其位数等于预设位数阈值N。
4.根据权利要求2所述的一种多尺度联合文本隐写方法,其特征在于,所述使用训练集对生成替换联合模型进行迭代训练包括:将训练集中的样本输入生成替换联合模型,获取生成模型输出的生成概率分布和替换模型输出的替换概率分布;
根据生成概率分布预测结果和替换概率分布预测结果分别与标签作为交叉熵损失函数的输入,计算损失 和 ,对损失 和 求和获取损失 ;
对损失 进行反向传播得到生成替换联合模型的参数梯度,并使用Adam优化器进行参数优化;
将参数优化后的生成替换联合模型带入上述迭代训练的步骤进行迭代,直至损失收敛,输出训练好的生成替换联合模型。
5.根据权利要求4所述的一种多尺度联合文本隐写方法,其特征在于,所述生成模型输出的生成概率分布包括:使用LSTM逐个提取出样本中各单词的时序关系特征向量,并组成时序关系特征矩阵 ;
通过多头自注意力机制计算样本中各单词的在时序特征上的关系权重,反映成注意力矩阵 :;
式中, 为注意力头 输出的特征向量,为注意力头总数, 分别为注意力头 的query、key、value向量对应的参数矩阵, 为注意力参数矩阵, ,为时序关系特征向量的维度, 为连接操作,为sigmoid函数;
将时序关系特征矩阵 与注意力矩阵 相乘得到各时间步的时间特征矩阵 :;
通过词嵌入层将样本中各单词映射到高维的语义空间,获取各单词的词嵌入向量;
构建一个图结构 ,并将样本中的所有单词的词嵌入向量作为图结构的各个节点,即 ,为样本中单词数量;
通过滑动窗口算法对样本中的所有单词的空间关系进行提取以建立图结构 的边集,即 , 为边的数量;
使用GAT从图结构 中提取出各节点的空间关系特征向量,通过多头自注意力机制计算空间特征,反映成注意力系数 :;
式中, 为节点 到节点 的注意力系数, 为节点 的相邻节点, 为节点 、节点 和节点 的空间关系特征向量, 为各节点的线性变换权重矩阵,为权重向量,为激活函数,为将两个向量拼接;
将注意力系数 与节点的空间关系特征向量相乘,并通过多头自注意力机制更新节点的空间关系特征向量,生成空间特征矩阵 :;
式中, 为注意力头 对应的权重矩阵;
将时间特征矩阵 和空间特征矩阵 通过第一全连接层和激活函数进行特征融合得到融合特征矩阵 :;
式中, 为第一全连接层的参数矩阵;
将融合特征矩阵 通过第二全连接层和激活函数进行预测生成,输出生成概率分布 :;
式中, 为第二全连接层的参数矩阵, 为第一偏置参数。
6.根据权利要求4所述的一种多尺度联合文本隐写方法,其特征在于,所述替换模型输出的替换概率分布包括:从样本中随机选取多个单词替换为代表掩码的符号,得到带掩码符号样本;
通过BERT的嵌入向量层将带掩码符号样本映射到高维的语义空间,获取各单词的特征映射向量 :;
式中,为带掩码符号样本, 为嵌入向量层,将特征映射向量 通过第三全连接层和激活函数进行预测生成,输出替换概率分布集:;
式中, 为第三全连接层的参数矩阵, 为第二偏置参数,为sigmoid函数;
将替换概率分布集 中带掩码符号的单词的概率分布作为输出。
7.根据权利要求1所述的一种多尺度联合文本隐写方法,其特征在于,所述根据秘密信息和生成概率分布对文本序列进行隐写操作包括:针对文本序列中各单词,将生成概率分布按照生成概率大小降序排列;
在排列后将前 个生成概率取出作为生成备选池, 为预设的一个单词嵌入的最大比特数;
计算生成备选池中第一个和第二个生成概率的比值:若比值大于预设比值阈值 ,则将第一个生成概率对应单词作为所述文本序列中单词的输出,并记录所述文本序列中单词为未隐写;
若比值小于等于预设比值阈值 ,则根据生成备选池中生成概率构建哈夫曼树,根据哈夫曼树获取各生成概率的编码集;
将秘密信息转化为二进制比特流,并初始化数值s=1;
当编码集中存在编码与二进制比特流前s位相同时,将所述编码对应的生成概率对应单词作为所述文本序列中单词的输出,并记录所述文本序列中单词为隐写;当编码集中不存在编码与二进制比特流前s位相同时,则令s=s+1,并重复当前步骤,直至s大于二进制比特流总位数。
8.根据权利要求1所述的一种多尺度联合文本隐写方法,其特征在于,所述根据秘密信息和替换概率分布对未隐写单词进行隐写操作包括:针对各未隐写单词,将替换概率分布按照替换概率大小降序排列;
在排列后将前 个替换概率取出作为替换备选池, 为预设的一个单词嵌入的最大比特数;
根据替换备选池中替换概率构建哈夫曼树,根据哈夫曼树获取各替换概率的编码集;
将秘密信息转化为二进制比特流,并初始化数值s=1;
当编码集中存在编码与二进制比特流前s位相同时,将所述编码对应的替换概率对应单词作为所述未隐写单词的输出,并记录所述未隐写单词为隐写;当编码集中不存在编码与二进制比特流前s位相同时,则令s=s+1,并重复当前步骤,直至s大于二进制比特流总位数。
9.一种多尺度联合文本隐写系统,其特征在于,包括:信息获取模块,用于获取文本序列和秘密信息;
生成模块,用于将文本序列输入预构建的生成替换联合模型中,获取各单词的生成概率分布;
第一隐写模块,用于根据秘密信息和生成概率分布对文本序列进行隐写操作,获取第一隐写文本以及隐写记录;
替换模块,用于根据隐写记录确定文本序列中未隐写单词,将文本序列输入预构建的生成替换联合模型中,获取各未隐写单词的替换概率分布;
第二隐写模块,用于根据秘密信息和替换概率分布对未隐写单词进行隐写操作,获取第二隐写文本;
联合隐写模块,用于根据第一隐写文本和第二隐写文本生成联合隐写文本。
10.一种基于权利要求1‑8任一项所述的一种多尺度联合文本隐写方法的秘密信息提取方法,其特征在于,包括:获取联合隐写文本;
将联合隐写文本输入预构建的生成替换联合模型中,获取各单词的生成概率分布;
根据生成概率分布和联合隐写文本进行提取操作,获取第一提取文本以及提取记录;
根据提取记录确定联合隐写文本中未提取单词,将联合隐写文本输入预构建的生成替换联合模型中,获取各未提取单词的替换概率分布;
根据替换概率分布和联合隐写文本进行提取操作,获取第二提取文本;
根据第一提取文本和第二提取文本生成秘密信息;
其中,所述根据生成概率分布和联合隐写文本对秘密信息进行提取操作包括:针对联合隐写文本中各单词,将生成概率分布按照生成概率大小降序排列;
在排列后将前 个生成概率取出作为生成备选池, 为预设的一个单词嵌入的最大比特数;
计算生成备选池中第一个和第二个生成概率的比值:若比值大于预设比值阈值 ,则将第一个生成概率对应单词作为所述联合隐写文本中单词的输出,并记录所述联合隐写文本中单词为未提取;
若比值小于等于预设比值阈值 ,则根据生成备选池中生成概率构建哈夫曼树,根据哈夫曼树获取各生成概率的编码集;
当编码集中存在编码对应单词与联合隐写文本中单词相同时,则将所述编码对应单词作为所述联合隐写文本中单词的输出,并记录所述联合隐写文本中单词为提取;
其中,所述根据替换概率分布和联合隐写文本进行提取操作包括:针对各未提取单词,将替换概率分布按照替换概率大小降序排列;
在排列后将前 个替换概率取出作为替换备选池, 为预设的一个单词嵌入的最大比特数;
根据替换备选池中替换概率构建哈夫曼树,根据哈夫曼树获取各替换概率的编码集;
当编码集中存在编码对应单词与联合隐写文本中单词相同时,则将所述编码对应单词作为所述未提取单词的输出,并记录所述未提取单词为提取。