1.一种云计算环境下的大数据文件分析处理系统,其特征在于,包括:文件获取模块,所述文件获取模块用于对云计算环境下的文件进行获取;
文件云备份模块,所述文件云备份模块根据文件内容对文件进行分布式归类存储;
备份文件校对模块,所述备份文件校对模块将文件获取模块中文件对应的文件名称编号与文件云备份模块中存储的文件名称编号进行匹配,判断文件获取模块中的文件是否在文件云备份模块中成功进行云备份;
文件分析模块,所述文件分析模块对文件获取模块获取的且成功进行云备份的文件进行分析,并根据该文件对应的文件名称编号为该文件对应分析结果相应的文件进行命名并保存到指定的数据库中,且文件分析模块将已分析过的该文件从文件获取模块中删除;
文件分析结果查询模块,所述文件分析结果查询模块对指定文件的分析结果进行查询时,会自动根据该指定文件的文件名称编号,对该指定文件的分析结果对应的文件进行复制提取,并在文件云备份模块中该指定文件对应的备份文件进行复制提取,在查询结束后,文件分析结果查询模块自动将提取的该指定文件及该指定文件的分析结果对应的文件进行删除;
所述文件云备份模块包括文件片段化处理模块、靶坐标绑定模块、存储类别划分模块及存储类别校准模块,所述文件片段化处理模块根据各个一级关键词对应的位置将文件进行分割,得到多个文件片段,每个文件片段中至少包含一个一级关键词,且含有多个一级关键词的文件片段中多个一级关键词位于同一个句子中;
所述靶坐标绑定模块根据各个文件片段在分割前的文件中的位置先后顺序,为各个文件片段进行排序,并为每个文件片段绑定一个靶坐标,将第n1个文件片段对应的靶坐标记为(n1,n),所述n为该文件对应的文件片段的总个数;
所述存储类别划分模块对每个文件片段进行二级关键词提取,并根据每个文件片段中的二级关键词对相应文件片段的存储类别进行划分;
所述存储类别校准模块将文件中的各个文件片段中的任意两个进行组合,并根据相似度大于等于第一预设值的组合中两个文件片段相应的二级关键词之间的关系,对这两个文件片段对应的存储类别进行校准,并按照各文件片段对应的校准后的存储类别对各个文件片段进行分布式存储。
2.根据权利要求1所述的一种云计算环境下的大数据文件分析处理系统,其特征在于:所述文件片段化处理模块对文件片段的方法包括以下步骤:
S1.1、得到文件获取模块获取的文件;
S1.2、通过对比数据库,得到预制的一级关键词集合;
S1.3、检索S1.1中获取的文件中属于预制的一级关键词集合的一级关键词,并对检索出的各个一级关键词通过第一标记方式进行标记;
S1.4、获取文件中通过第一标记方式进行标记的各个一级关键词的位置,并对相邻的两个一级关键词的位置进行判断,当相邻的两个一级关键词位于同一个句子中,则不对这两个一级关键词所处的句子进行分割,当相邻的两个一级关键词位于不同的句子中,则将前一个一级关键词所处的句子至后一个关键词所处的句子之前的内容作为一个文件片段。
3.根据权利要求1所述的一种云计算环境下的大数据文件分析处理系统,其特征在于:所述存储类别划分模块对文件片段进行二级关键词提取时,
通过对比数据库,得到预制的二级关键词集合,
检索获取的文件片段中属于预制的二级关键词集合的二级关键词,并对检索出的各个二级关键词逐个录入到一个空白集合中,得到该文件片段对应的二级关键词集合,将文件中第n1个文件片段对应的二级关键词集合记为An1,当预制的二级关键词集合的某个二级关键词在获取的文件片段中出现多次时,该获取的文件片段对应的二级关键词集合中该二级关键词对应的个数为多个;
当预制的二级关键词集合的某个二级关键词在获取的文件片段中出现一次时,该获取的文件片段对应的二级关键词集合中该二级关键词对应的个数为一个。
4.根据权利要求3所述的一种云计算环境下的大数据文件分析处理系统,其特征在于:所述存储类别划分模块根据每个文件片段中的二级关键词对相应文件片段的存储类别进行划分的方法包括以下步骤:S2.1、获取n1为不同值时,文件中第n1个文件片段对应的二级关键词集合An1;
S2.2、统计An1中二级关键词的种类n2、二级关键词的总个数n3及各个种类的二级关键词分别出现的频数,将第i个种类的二级关键词出现的频数记为n4i,得到第i个种类的关键词出现的频率n5i,所述 将An1中不同元素对应的相同二级关键词作为一个二级关键词种类;
S2.3、获取对比数据库中历史数据中每个存储类别中每个二级关键词集合内各个二级关键词出现的频率,将历史数据中第i1个存储类别中第i2个文件片段对应的二级关键词集合记为Ai2i1,将An1中第i个种类的二级关键词在历史数据中第i1个存储类别中第i2个文件片段对应的二级关键词集合中出现的频率记为S2.4、计算An1与第i1个存储类别对应的类别偏差值An1i1,所述
其中,ki1表示历史数据中第i1个存储类别中存储的文件片段的总个数;
S2.5、获取i1为不同值时,An1分别对应的各个An1i1的最小值,并将该最小值对应的存储类别作为文件中第n1个文件片段对应的存储类别。
5.根据权利要求4所述的一种云计算环境下的大数据文件分析处理系统,其特征在于:所述存储类别校准模块对文件片段的存储类别进行校准的方法包括以下步骤:S3.1、将文件中的各个文件片段中的任意两个进行组合,将文件中第j1个文件片段与第j2个文件片段之间的相似度记为S3.2、计算文件中每个组合中两个文件片段之间的相似度,分别将每个组合中两个文件片段之间的相似度与第一预设值进行比较,当组合中两个文件片段之间的相似度大于等于第一预设值时,则对组合中两个文件片段之间的相似度通过第二标记方式进行标记,反之,则不对组合中两个文件片段之间的相似度进行处理;
S3.3、将通过第二标记方式标记的相似度按从小到大的顺序进行排序,并按从小到大的顺序逐个对标记的相似度对应的两个文件片段的存储类别进一步进行校准;
对标记的相似度对应的两个文件片段的存储类别进一步进行校准的方法包括以下步骤:S3.3.1、获取对标记的相似度对应的两个文件片段,分别记为第g1个文件片段和第g2个文件片段,获取第g1个文件片段与第g2个文件片段重合的二级关键词种类,将不重合的二级关键词种类分别从第g1个文件片段与第g2个文件片段对应的二级关键词集合中剔除,分别得到第g1个文件片段与第g2个文件片段对应的校准后的二级关键词集合,将第g1个文件片段对应的校准后的二级关键词集合记为 将第g2个文件片段对应的校准后的二级关键词集合记为S3.3.2、将存储类别划分模块中第g1个文件片段对应的存储类别记为g3,将存储类别划分模块中第g2个文件片段对应的存储类别记为g4;
S3.3.3、根据S2.4中类别偏差值的计算公式,
得到 与第g3个类别对应的类别偏差值
得到 与第g4个类别对应的类别偏差值
得到 与第g3个类别对应的类别偏差值
得到 与第g4个类别对应的类别偏差值
S3.3.4、比较 与 的大小关系,
当 时,则判定校准后第g1个文件片段及第
g2个文件片段对应的存储类别均为g4,
当 时,则判定校准后第g1个文件片段对应
的存储类别均为g3,第g2个文件片段对应的存储类别为g4,当 时,则判定校准后第g1个文件片段及第
g2个文件片段对应的存储类别均为g3。
6.根据权利要求5所述的一种云计算环境下的大数据文件分析处理系统,其特征在于:所述存储类别校准模块计算文件中第j1个文件片段与第j2个文件片段之间的相似度的方法包括以下步骤:S4.1、获取第j1个文件片段与第j2个文件片段重合的二级关键词种类;
S4.2、统计第j1个文件片段中重合的二级关键词种类对应的二级关键词总个数与相应的二级关键词集合中元素的总个数的比值Q1;
S4.3、统计j2个文件片段中重合的二级关键词种类对应的二级关键词总个数与相应的二级关键词集合中元素的总个数的比值Q2;
S4.4、计算Q1与Q2的平均值,所得结果即为文件中第j1个文件片段与第j2个文件片段之间的相似度。
7.根据权利要求1所述的一种云计算环境下的大数据文件分析处理系统,其特征在于:所述文件分析模块根据该文件对应的文件名称编号为该文件对应分析结果相应的文件进行命名的方法如下:所述该文件对应分析结果相应的文件表示保存该文件对应分析结果的文件,用W1/W2的方式对该文件进行命名,其中,W1表示该文件对应的文件名称编号,W2为固定内容,表示文件的分析结果。
8.根据权利要求2所述的一种云计算环境下的大数据文件分析处理系统,其特征在于:用W3+F1/W1/W4+F2的方式对该文件中各个文件片段进行命名,其中,W3表示文件片段相邻的前一个文件片段对应的靶坐标或者(0,n),其中W4表示文件片段相邻的后一个文件片段对应的靶坐标或者(n+1,n),F1表示文件片段相邻的前一个文件片段对应的存储类别,F2表示文件片段相邻的后一个文件片段对应的存储类别,W3为(0,n)的文件片段为该文件的第一个文件片段,该文件片段不存在相邻的前一个文件片段,同时此时F1对应的存储类别为空,W4为(n+1,n)的文件片段为该文件的最后一个文件片段,该文件片段不存在相邻的后一个文件片段,同时此时F2对应的存储类别为空;
W1表示该文件对应的文件名称编号。
9.根据权利要求1‑8任意一项所述的一种云计算环境下的大数据文件分析处理系统的云计算环境下的大数据文件分析处理方法,其特征在于:所述方法包括以下步骤:S1、通过文件获取模块对云计算环境下的文件进行获取;
S2、在文件云备份模块中,根据文件内容对文件进行分布式归类存储;
S3、通过备份文件校对模块将文件获取模块中文件对应的文件名称编号与文件云备份模块中存储的文件名称编号进行匹配,判断文件获取模块中的文件是否在文件云备份模块中成功进行云备份;
S4、通过文件分析模块对文件获取模块获取的且成功进行云备份的文件进行分析,并根据该文件对应的文件名称编号为该文件对应分析结果相应的文件进行命名并保存到指定的数据库中,且文件分析模块将已分析过的该文件从文件获取模块中删除;
S5、文件分析结果查询模块对指定文件的分析结果进行查询时,会自动根据该指定文件的文件名称编号,对该指定文件的分析结果对应的文件进行复制提取,并在文件云备份模块中该指定文件对应的备份文件进行复制提取,在查询结束后,文件分析结果查询模块自动将提取的该指定文件及该指定文件的分析结果对应的文件进行删除。