1.一种支持检索的数据存储方法,其特征在于,包括:将单个存储主体的内容与停用词表比对确定单个存储主体中的若干特征词;
确定各特征词对于存储主体的表征能力参数;
将存储主体的特征词以及特征词的表征能力参数生成为索引信息表并与存储主体共同存储;
其中,所述特征词为排除所述停用词表包含的词语的情况下,在所述存储主体内出现次数排名前预设数量名次的词语;
所述表征能力参数根据特征词的连续特征值和出现次数确定,且表征能力参数分别与所述连续特征值和所述出现次数成正相关;
其中,针对文本类型的存储主体,连续特征值为连续的若干相同间隔的字段内,特征词连续出现的最大连续字段数量与存储主体包含的总字段数量的比值;
针对视频或音频类型的存储主体,连续特征值为连续的若干相同间隔的时段内,特征词连续出现的最大连续时段数量与存储主体包含的总时段数量的比值。
2.根据权利要求1所述的支持检索的数据存储方法,其特征在于,在所述确定各特征词对于存储主体的表征能力参数中,将特征词的连续特征值和特征词的出现次数的乘积确定为特征词对于存储主体的表征能力参数。
3.根据权利要求2所述的支持检索的数据存储方法,其特征在于,在所述确定特征词对于存储主体的表征能力参数之后还包括:对存储主体的特征词进行语义分析,将语义相同的若干特征词的表征能力参数均确定为语义相同的各特征词中的表征能力参数中的数值最高的一项。
4.根据权利要求3所述的支持检索的数据存储方法,其特征在于,在排除所述停用词表包含的词语的情况下,对于存储主体中特征词的确定,响应于存储主体类别为文本,执行以下步骤:统计存储主体中出现次数大于一次的词语;
比对统计出的各词语的出现次数,将排名前预设数量名次的词语确定为该存储主体的特征词。
5.根据权利要求4所述的支持检索的数据存储方法,其特征在于,在排除所述停用词表包含的词语的情况下,对于存储主体中特征词的确定,响应于存储主体类别为音频执行以下步骤:对存储主体进行音频文字识别;
统计存储主体中出现次数大于一次的词语;
比对统计出的各词语的出现次数,将排名前预设数量名次的词语确定为该存储主体的特征词。
6.根据权利要求5所述的支持检索的数据存储方法,其特征在于,在排除所述停用词表包含的词语的情况下,对于存储主体中特征词的确定,响应于存储主体类别为视频执行以下步骤;
对存储主体分别进行音频文字识别和图像文字识别;
统计存储主体中出现次数大于一次的词语;
比对统计出的各词语的出现次数,将排名前预设数量名次的词语确定为该存储主体的特征词。
7.一种索引方法,用于以权利要求1至权利要求6中任一项所述的支持检索的数据存储方法得到的数据库的检索,其特征在于,包括:确定特征词与检索内容匹配的存储主体;
读取对应的索引信息表,根据特征词对于存储主体的表征能力参数确定索引信息对于存储主体的展示顺序。
8.根据权利要求7所述的索引方法,其特征在于,根据特征词对于存储主体的表征能力参数确定索引信息对于存储主体的展示顺序包括:确定各存储主体与检索内容匹配的特征词;
以各存储主体与检索内容匹配的特征词的表征能力参数之和由大到小的顺序作为所述索引信息对于各存储主体的展示顺序。
9.一种数据存储系统,应用权利要求1至权利要求6任一项所述的支持检索的数据存储方法进行数据存储,其特征在于,包括:数据存储模块,用于存储主体的存储;
提取模块,与所述数据存储模块连接,用于提取存储主体的特征词并统计特征词的出现次数和出现节点;
计算模块,与所述提取模块连接,用于计算特征词的连续特征值和表征能力参数;
索引支持模块,分别与所述提取模块和所述计算模块连接,用于生成包括存储主体的特征词以及存储主体的特征词的表征能力参数的索引数据表并存储。
10.根据权利要求9所述的数据存储系统,其特征在于,所述计算模块设有语义分析单元,所述语义分析单元用于确定语义相同的特征词并刷新语义相同的特征词的表征能力参数。