利索能及
我要发布
收藏
专利号: 2023111691341
申请人: 南京信息工程大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-30
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种文本索引模型构建方法,其特征在于,包括以下步骤:基于Skip-gram模型对预处理后的语料库中的词进行训练,得到词向量;

对语料库的每段文本进行分词,并获取分词的词向量;基于分词的词向量的坐标和维度确定向量空间中心的位置;

计算各个分词的词向量的坐标至向量空间中心的距离,得到分词的词向量至向量空间中心的最长距离和最短距离;以向量空间中心为球心,最短距离长为最短半径,最长距离长为最长半径,构建空心球形向量空间;

通过迭代算法调整球空间的中心位置,直到空心球形向量空间满足体积最小且容纳文本中所有词向量;

基于所有调整后的空心球形向量空间构建文本索引模型;

所述向量空间中心的位置的确定,包括以下步骤:从训练后的词向量中获取分词对应的词向量,并将分词的词向量存入一个数组arr;

遍历数组arr中词向量的坐标Pi,对于每个坐标的维度n,得到Pi对应的每个维度值的和;

将求和值除以n得到向量空间中心的位置L;

所述通过迭代算法调整球空间的中心位置,直到空心球形向量空间满足体积最小且容纳文本中所有词向量,包括以下步骤:定义一个极大值e= MAX_VALUE,step=1e-5,eplse=1e-8;遍历空间中的每一个词向量Pi,对于每一个维度n,将距中心最远点每一个维度值减去当前向量空间中心的每一个维度值,并除以这两个点之间的欧式距离得到Yn;对于空间中的每一个维度n,将Yn乘以step之后与原空间中心Ln相加,得到新中心rst;以新中心rst为基准,计算得到新的距中心的最长距离fin 3,记录当前词向量在数组arr的下标次序记为M3;将新的最长距离fin 3和原有最长距离fin 2相比,保存比较后的最长距离至fin 2,记录当前词向量在数组arr的下标次序记为M2,并保存新中心rst和原中心L的欧氏距离至e;重复过程直至e小于eplse,此时视为中心rst不再移动;

基于中心rst的确定最短距离fin 1;以rst为球心,fin 1为最短半径,fin 2为最长半径,构建空心球形向量空间。

2.根据权利要求1所述的文本索引模型构建方法,其特征在于,所述向量空间中心的最长距离和最短距离的获取包括以下步骤:定义一个极大值fin 1=MAX_VALUE,极小值fin 2=-1;

遍历词向量的坐标Pi,计算得到当前点距中心的欧氏距离,两个词之间的欧式距离的满足:

其中,,/>是空间中两个点第i个维度的值;

比较fin 1和当前词向量距向量中心的距离,将小的值保存为新的fin 1,记录当前词向量在数组arr的下标次序记为M1;

在遍历完所有词向量之后,得到距向量中心最短距离为fin 1,最近点的下标次序为M1;

比较fin 2和当前词向量距向量中心的距离,将大的值保存为新的fin 2,记录当前词向量在数组arr的下标次序记为M2;

在遍历完所有词向量之后,得到距向量中心最长距离为fin 2,最远点的下标次序为M2。

3.根据权利要求1所述的文本索引模型构建方法,其特征在于,所述语料库的每段文本通过jieba分词进行分词。

4.根据权利要求1所述的文本索引模型构建方法,其特征在于,所述语料库通过jieba分词并且去停用词。

5.一种文本索引方法,其特征在于,包括以下步骤:向如权利要求1至4任意一项所述的文本索引模型输入关键词;计算关键词的词向量与空心球形向量空间rst的欧式距离d;若d的长度在空心球形向量空间的fin 1和fin 2之间,则判断关键词在对应的空心球形向量空间内,并使用ACBM算法定位该关键词在该段文本的位置。

6.一种应用如权利要求1至4任意一项所述的文本索引模型构建方法的文本索引系统,其特征在于,包括:预处理模块:对语料库通过jieba分词并且去停用词;

文本索引搭载模块:基于Skip-gram模型对预处理后的语料库中的词进行训练,得到词向量;将待检索文本进行分词,并获取分词的词向量;基于分词的词向量的坐标和维度确定向量空间中心的位置;计算各个分词的词向量的坐标至向量空间中心的距离,得到分词的词向量至向量空间中心的最长距离和最短距离;以向量空间中心为球心,最短距离长为最短半径,最长距离长为最长半径,构建空心球形向量空间;

调整模块:通过迭代算法调整球空间的中心位置,直到空心球形向量空间满足体积最小且容纳文本中所有词向量;

查询模块:计算关键词的词向量与空心球形向量空间rst的欧式距离d;若d的长度在空心球形向量空间的fin 1和fin 2之间,则判断关键词在对应的空心球形向量空间内;

定位模块:若判断关键词在空心球形向量空间中,使用ACBM算法进一步定位该词在文本中的位置。

7.一种终端设备,包括存储器、处理器及存储在存储器中并能够在处理器上运行的计算机程序,其特征在于,所述存储器中存储有能够在处理器上运行的计算机程序,所述处理器加载并执行计算机程序时,采用了如权利要求1至4任意一项所述的一种文本索引模型构建方法。

8.一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,其特征在于,所述计算机程序被处理器加载并执行时,采用了如权利要求1至4任意一项所述的一种文本索引模型构建方法。