利索能及
我要发布
收藏
专利号: 202411874810X
申请人: 广州斯竹科技有限公司
专利类型:发明专利
专利状态:授权未缴费
更新日期:2025-08-18
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种档案检索方法,其特征在于,所述方法包括:

对档案进行特征提取,从档案中选取多个子集,利用提取的特征构建子集的相似度矩阵,并根据子集的相似度矩阵计算子集的拉普拉斯矩阵,得到拉普拉斯矩阵的特征值;

基于所有子集的所述特征值得到簇个数,根据簇个数和子集的所述特征值得到锚点,利用所述簇个数和所述锚点将档案聚类;

将用户输入检索关键词转换为特征向量,计算特征向量与每个簇的中心向量的距离,并将距离最小的簇中的档案返回给用户。

2.如权利要求1所述的方法,其特征在于,所述基于所有子集的所述特征值得到簇个数,具体为:选取所有子集中最少特征值个数个子集,对于剩余的子集,保留每个子集的前所述最少特征值个数个的特征值;

对于每个子集,计算相邻特征值之间的差值得到差值序列,并计算所有子集的差值序列的平均值得到平均值序列;

从所述平均值序列中找到最大值在所述平均值序列中的位置,将所述位置所在序号作为簇个数。

3.如权利要求1所述的方法,其特征在于,所述根据簇个数和子集的所述特征值得到锚点,具体为:计算每个子集前所述簇个数的特征值之和,计算特征值之和最小的多个子集的并集;

将特征值之和最小的多个子集的并集与剩余子集的交集的差集作为锚点集合,所述锚点集合中每个元素为一个锚点。

4.如权利要求1所述的方法,其特征在于,所述计算特征向量与每个簇的中心向量的距离,具体为:计算特征向量到每个簇的中心向量的距离,并获取所有锚点的拉普拉斯矩阵的特征值;

计算距离与归一化后特征值的乘积,将距离减去所述乘积的结果作为特征向量与簇的中心向量的距离。

5.如权利要求1所述的方法,其特征在于,所述将距离最小的簇中的档案返回给用户,具体为:计算所述距离最小的簇中的档案的特征向量与簇的中心向量的距离,按照所述距离从小到大的顺序对所述距离最小的簇中的档案进行排序,按照所述排序结果将档案返回给用户。

6.一种档案检索系统,其特征在于,所述系统包括:

特征提取模块,用于对档案进行特征提取,从档案中选取多个子集,利用提取的特征构建子集的相似度矩阵,并根据子集的相似度矩阵计算子集的拉普拉斯矩阵,得到拉普拉斯矩阵的特征值;

聚类模块,用于基于所有子集的所述特征值得到簇个数,根据簇个数和子集的所述特征值得到锚点,利用所述簇个数和所述锚点将档案聚类;

检索结果返回模块,用于将用户输入检索关键词转换为特征向量,计算特征向量与每个簇的中心向量的距离,并将距离最小的簇中的档案返回给用户。

7.如权利要求6所述的系统,其特征在于,所述基于所有子集的所述特征值得到簇个数,具体为:选取所有子集中最少特征值个数个子集,对于剩余的子集,保留每个子集的前所述最少特征值个数个的特征值;

对于每个子集,计算相邻特征值之间的差值得到差值序列,并计算所有子集的差值序列的平均值得到平均值序列;

从所述平均值序列中找到最大值在所述平均值序列中的位置,将所述位置所在序号作为簇个数。

8.如权利要求6所述的系统,其特征在于,所述根据簇个数和子集的所述特征值得到锚点,具体为:计算每个子集前所述簇个数的特征值之和,计算特征值之和最小的多个子集的并集;

将特征值之和最小的多个子集的并集与剩余子集的交集的差集作为锚点集合,所述锚点集合中每个元素为一个锚点。

9.如权利要求6所述的系统,其特征在于,所述计算特征向量与每个簇的中心向量的距离,具体为:计算特征向量到每个簇的中心向量的距离,并获取所有锚点的拉普拉斯矩阵的特征值;

计算距离与归一化后特征值的乘积,将距离减去所述乘积的结果作为特征向量与簇的中心向量的距离。

10.如权利要求6所述的系统,其特征在于,所述将距离最小的簇中的档案返回给用户,具体为:计算所述距离最小的簇中的档案的特征向量与簇的中心向量的距离,按照所述距离从小到大的顺序对所述距离最小的簇中的档案进行排序,按照所述排序结果将档案返回给用户。