1.一种基于云档案库的档案管理方法,其特征在于,包括:S101:获取档案数据;
S102:提取所述档案数据的数据特征;
S103:根据所述档案数据的数据特征,对所述档案数据进行分类,并将所述档案数据存储于相应的类别文件夹中;
S104:计算各个档案数据之间的关联度;
S105:根据各个档案数据之间的关联度,构建知识图谱;
S106:获取用户的查询输入;
S107:响应于所述查询输入,展示与所述查询输入相匹配的档案数据;
S108:根据已查阅的档案数据,基于所述知识图谱,推荐档案数据;
其中,所述S102具体包括:
S1021:对所述档案数据进行分词;
S1022:提取各个词语在所述档案数据中的词频:其中,tfi表示第i个词语的词频,ci表示第i个词语出现的次数,n表示词语的总数;
S1023:计算各个词语在所述档案数据中的逆向档案频率:其中,idfi表示第i个词语的逆向档案频率,D表示云档案库中档案数据的总数,Di表示含有第i个词语的档案数据的总个数;
S1024:计算各个词语的文本特征值:
wi=tfi·idfi
其中,wi表示第i个词语的文本特征值;
S1025:将各个词语按照文本特征值由大至小的顺序进行排序,选取排序靠前的第一预设数量的文本特征值组合为向量,作为所述档案数据的特征向量:其中,W表示数据特征, 表示按照文本特征值由大至小的顺序进行的排序中靠前的第i个特征值,s表示所述第一预设数量,s也可称为特征向量的维度;
其中,所述S104具体包括:
根据以下公式计算各个档案数据之间的关联度:
其中,σij表示第i个档案数据与第j个档案数据之间的关联度,Wi表示第i个档案数据的特征向量,Wj表示第j个档案数据的特征向量,||·||表示向量的模运算;
其中,所述S105具体为:
将各个档案数据作为节点,将各个档案数据之间的关联度作为连接节点的路径,构建知识图谱;
其中,路径长度的计算方式为:
其中,lij表示第i个节点与第j个节点之间的路径长度,lij也可称第i个档案数据与第j个档案数据之间的路径长度,σij表示第i个节点与第j个节点之间的关联度,σij也可称为第i个档案数据与第j个档案数据之间的关联度,e表示自然对数;
其中,所述S108具体包括:
S1081:获取已查阅档案数据;
S1082:在所述知识图谱中,计算已查阅档案数据到各个未查阅档案数据的综合路径长度:其中,Li表示已查阅档案数据到第i个未查阅档案数据的综合路径长度,lij表示第i个未查阅档案数据与第j个已查阅档案数据之间的路径长度,m表示已查阅档案数据的总数;
S1083:将各个未查阅档案数据按照综合路径长度由小至大的顺序进行排序,选取排序靠前的第三预设数量的未查阅档案数据进行推荐。
2.根据权利要求1所述的基于云档案库的档案管理方法,其特征在于,所述S103具体包括:S1031:初始化K个分类中心,其中,每个分类中心对应一个档案类别;
S1032:根据各个档案数据的特征向量,计算当前档案数据到各个分类中心的中心点的距离:其中,Dj表示当前档案数据到第j个分类中心的距离, 表示特征向量中的第i个特征值,cij表示第j个分类中心的中心点的特征向量中的第i个特征值,s表示特征向量的维度;
S1033:将所述当前档案数据划分到Dj最小的分类中,并更新分类中心;
S1034:继续选取下一个档案数据,直至完成所有档案数据的分类。
3.根据权利要求1所述的基于云档案库的档案管理方法,其特征在于,在所述知识图谱中,各个节点以圆形方式显示,各个节点的圆形半径的计算方式为:其中,r表示节点的圆形半径,λ表示换算系数, 表示按照文本特征值由大至小的顺序进行的排序中靠前的第i个特征值,s表示预设数量,s也可称为特征向量的维度。
4.根据权利要求1所述的基于云档案库的档案管理方法,其特征在于,所述S107具体包括:S1071:对所述查询输入进行解析,结合查询历史记录,通过循环神经网络,得到所述查询输入的查询特征向量;
S1072:根据以下公式计算所述查询特征向量与所述云档案库中的档案数据之间的匹配度:其中,τi表示所述查询特征向量与所述云档案库中的第i个档案数据之间的匹配度,Wi表示第i个档案数据的特征向量,A表示查询特征向量,||·||表示向量的模运算;
S1073:将各个档案数据按照匹配度由大至小的顺序进行排序,选取排序靠前的第二预设数量的档案数据进行展示。
5.根据权利要求4所述的基于云档案库的档案管理方法,其特征在于,所述S1071具体包括:S10711:构建循环神经网络,所述循环神经网络包括:输入层、状态层、注意力层和输出层;
S10712:在所述输入层,输入查询历史记录中的各个查询文本组成查询文本序列[x1,…,xt,…xn],其中,xt表示第t次查询时的查询文本,n表示查询次数;
S10713:在所述状态层中,计算在第t次查询时的查询文本的隐状态:其中,ht表示在第t次查询时的查询文本的隐状态,表示前向循环的前一状态, 表示后向循环的前一状态,GRU()表示经过循环神经网络的非线性计算,ut表示 的权重系数,vt表示 的权重系数,pt表示第t次查询时隐状态的偏置项;
S10714:在所述注意力层中,为每个查询文本分配权重,并进行累加得到当前所述注意力层的隐状态:其中,s表示当前所述注意力层的隐状态,γt表示第t次查询时的查询文本的权重,ht表示在第t次查询时的查询文本的隐状态;
S10715:在所述输出层,输出当前查询输入的查询特征向量A:A=tan(uns+pn)
其中,un表示当前查询输入即第n次查询时的前向循环的前一状态的权重系数,pn表示当前查询输入即第n次查询时隐状态的偏置项。
6.一种基于云档案库的档案管理系统,其特征在于,用于执行权利要求1至5中任一项所述的基于云档案库的档案管理方法。