利索能及
我要发布
收藏
专利号: 2020115083587
申请人: 广州大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-05-07
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于DNA存储介质的文本存储方法,其特征在于,包括以下步骤:获取原始文本,对所述原始文本进行编码得到DNA存储序列;

将所述DNA存储序列进行合成,得到DNA分子序列,对所述DNA分子序列进行扩增,将扩增后的DNA分子序列进行存储;

获取存储的DNA分子序列,进行转码得到所述原始文本;

所述进行转码得到所述原始文本包括以下步骤:对存储的DNA分子序列进行测序,得到DNA分子序列的读长;

预处理所述读长,去除所述读长中的噪音数据,将预处理后的读长进行转码得到所述原始文本。

2.根据权利要求1所述的一种基于DNA存储介质的文本存储方法,其特征在于,所述获取原始文本,对所述原始文本进行编码得到DNA存储序列这一步骤,其包括:根据编码规则以及所述原始文本中的字符生成编码碱基序列,根据所述编码碱基序列生成索引值;

根据所述原始文本中的字符生成字节校验码;

根据所述索引值、字节校验码以及由所述编码碱基序列构成的文本数据,构建所述DNA存储序列。

3.根据权利要求2所述的一种基于DNA存储介质的文本存储方法,其特征在于,所述根据所述原始文本中的字符生成字节校验码这一步骤,其包括:将所述原始文本中的字符通过里所码编码得到二进制字符串;

根据所述二进制字符串进行分组碱基编码,得到所述字节校验码。

4.根据权利要求1所述的一种基于DNA存储介质的文本存储方法,其特征在于,所述预处理所述读长,去除所述读长中的噪音数据,将预处理后的读长进行转码得到所述原始文本这一步骤,其包括:

获取所述预处理后的读长,根据编码规则逆推,得到解码字符行;

对所述解码字符行进行纠错,得到解码文本字符行;

根据所述解码文本字符行以及文本内容得到若干分组,解码所述分组,得到原始文本。

5.根据权利要求4所述的一种基于DNA存储介质的文本存储方法,其特征在于,所述预处理所述读长,去除所述读长中的噪音数据,将预处理后的读长进行转码得到所述原始文本这一步骤,其还包括:

根据所述读长的错误碱基,确定汉明距离为最小值的字符为所述错误碱基的解码字符。

6.根据权利要求4所述的一种基于DNA存储介质的文本存储方法,其特征在于,所述根据所述解码文本字符行以及文本内容得到若干分组这一步骤,其包括:根据所述解码文本字符行的索引值划分得到若干分组,确定分组成员的文本相似度;

根据所述文本相似度对所述分组成员进行二次划分,所述二次划分,包括以下步骤至少之一:

根据预设的第一阈值,将所述文本相似度小于所述第一阈值的成员添加至其他分组;

确定所述文本相似度的均值,根据所述均值删除所述分组成员;

根据所述文本相似度,将未归属分组的成员进行聚类,得到新的分组。

7.根据权利要求4所述的一种基于DNA存储介质的文本存储方法,其特征在于,所述解码所述分组,得到原始文本这一步骤,其包括:确定分组中所述解码文本字符行中字符的权重值;

确定所述分组的唯一长度值,使得所述分组中的解码文本字符行的长度值与所述唯一长度值相同;

根据长度值一致的解码文本字符行以及所述字符的权重值,确定所述原始文本的字符,并组合得到原始文本。