1.一种局域网数字档案的语义关联检索方法,其特征在于,该方法包括以下步骤:
对局域网中所有文字档案进行语义关联检索,采集使用者的检索文本,获取检索文本的分词结果中每个词语的词向量;
将检索文本的分词结果中任意两个不同的词语分别记为第一词语和第二词语,根据第一词语和第二词语在检索文本中的位置差异,确定第一词语和第二词语的位置关联性,根据第一词语和第二词语在局域网中所有文字档案中的同一句子中同时出现的句子长度和次数,以及第一词语和第二词语的语义关联性,确定第一词语和第二词语的修正权重,根据第一词语和第二词语的位置关联性与修正权重,确定第一词语和第二词语的语义权重,根据检索文本的分词结果中所有词语之间的修正权重和所有词语的词向量,确定检索文本的语句向量,确定局域网中所有文字档案中每个句子的语句向量;
根据局域网中所有文字档案中每个句子的所有不同词语在局域网中所有文字档案中的同一句子中同时出现的次数,以及局域网中所有文字档案中每个句子的语句向量,分别确定局域网中每一文字档案的档案向量;
根据局域网中所有文字档案的档案向量与检索文本的语句向量之间的相似度,完成数字档案的语义关联检索;
所述根据第一词语和第二词语在局域网中所有文字档案中的同一句子中同时出现的句子长度和次数,以及第一词语和第二词语的语义关联性,确定第一词语和第二词语的修正权重,包括的具体方法为:使用TextRank算法获取第一词语和第二词语之间边的权重;
当第一词语和第二词语在局域网中所有文字档案中的同一句子中同时出现,记为第一词语和第二词语在文字档案中共现;根据第一词语和第二词语的共现次数与局域网中所有文字档案中所有不同词语的共现次数之间的差异,确定第一词语和第二词语的第一比值;
局域网中所有文字档案的所有句子的长度,以及第一词语和第二词语在文字档案中共现的句子的长度,确定第一词语和第二词语的第二比值;
将第一词语和第二词语的第一比值与第二比值的均值,记为第一词语和第二词语的第三比值;
将第一词语和第二词语之间边的权重与第三比值的差值,记为第一词语和第二词语的修正权重。
2.根据权利要求1所述的一种局域网数字档案的语义关联检索方法,其特征在于,所述第一词语和第二词语的位置关联性的确定方法为:将第一词语和第二词语的序号的差值的绝对值,记为第一词语和第二词语的位置距离,将第一词语和第二词语的位置距离的负相关处理结果,记为第一词语和第二词语的位置关联性。
3.根据权利要求1所述的一种局域网数字档案的语义关联检索方法,其特征在于,所述根据第一词语和第二词语的共现次数与局域网中所有文字档案中所有不同词语的共现次数之间的差异,确定第一词语和第二词语的第一比值,包括的具体方法为:将第一词语和第二词语在局域网中所有文字档案中共现的总次数,记为第一词语和第二词语的文档共现次数,将局域网中所有文字档案中所有不同词语的共现总次数,记为文档共现总数,将第一词语和第二词语的文档共现次数与文档共现总数的比值,记为第一词语和第二词语的第一比值。
4.根据权利要求3所述的一种局域网数字档案的语义关联检索方法,其特征在于,所述局域网中所有文字档案的所有句子的长度,以及第一词语和第二词语在文字档案中共现的句子的长度,确定第一词语和第二词语的第二比值,包括的具体方法为:将第一词语和第二词语在文字档案中共现的句子的平均长度,记为第一词语和第二词语的文档共现长度;将局域网中所有文字档案的所有句子的平均长度,记为文档平均长度;
将第一词语和第二词语的文档共现长度与文档平均长度的比值,记为第一词语和第二词语的第二比值。
5.根据权利要求1所述的一种局域网数字档案的语义关联检索方法,其特征在于,所述第一词语和第二词语的语义权重的确定方法为:将第一词语和第二词语的位置关联性与修正权重的均值,记为第一词语和第二词语的语义权重。
6.根据权利要求1所述的一种局域网数字档案的语义关联检索方法,其特征在于,所述检索文本的语句向量的确定方法为:将第一词语与检索文本的分词结果中所有其他词语之间的修正权重的累加和的归一化值,记为第一词语的语义总权重,将第一词语的语义总权重与词向量的乘积,记为第一词语的加权累计值;
将检索文本的分词结果中所有词语的加权累计值的累加和,记为检索文本的语句向量。
7.根据权利要求3所述的一种局域网数字档案的语义关联检索方法,其特征在于,所述文字档案的档案向量的确定方法为:将局域网中所有文字档案中任意一个句子记为目标档案句,将目标档案句的分词结果中所有不同的词语的文档共现次数的累加和,记为目标档案句的共现频次,将目标档案句的共现频次与文档共现总数的比值,记为目标档案句的第四比值,将目标档案句的语句向量与第四比值的乘积,记为目标档案句的加权向量;
将局域网中同一文字档案中所有句子的加权向量的向量和,记为所述局域网中同一文字档案的档案向量。
8.根据权利要求1所述的一种局域网数字档案的语义关联检索方法,其特征在于,所述根据局域网中所有文字档案的档案向量与检索文本的语句向量之间的相似度,完成数字档案的语义关联检索,包括的具体方法为:将检索文本的语句向量与局域网中文字档案的档案向量之间的余弦相似度的绝对值,记为检索文本与文字档案的语义关联程度;
根据检索文本与局域网中所有文字档案的语义关联程度,获取数字档案的语义关联检索结果。
9.根据权利要求8所述的一种局域网数字档案的语义关联检索方法,其特征在于,所述根据检索文本与局域网中所有文字档案的语义关联程度,获取数字档案的语义关联检索结果,包括的具体方法为:将检索文本对应的所有语义关联程度中最大的 个语义关联程度对应的文字档案按照文字档案对应的语义关联程度从大到小的顺序进行排列,获取语义关联检索结果,其中,表示预设参数。