利索能及
我要发布
收藏
专利号: 202110285108X
申请人: 杭州电子科技大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-04-09
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种融合结构化和非结构化数据的混合搜索方法,其特征在于包含以下步骤:(1)将数据集中每一个实体所包含的结构化和非结构化数据分别向量化得到包含结构化向量和非结构化向量的实体向量;

(2)基于结构化向量和非结构化向量相似性组合构建融合结构化和非结构化数据近邻图;

(3)将查询实体所包含的结构化和非结构化数据通过与(1)相同的方式向量化得到包含结构化向量和非结构化向量的混合查询向量;

(4)混合查询向量在融合结构化和非结构化数据近邻图上通过贪婪算法执行混合搜索得到查询实体的最近邻;

其中步骤(1)将数据集S中每一个实体ei所包含的结构化和非结构化数据分别向量化得到包含非结构化向量αi和结构化向量βi的实体向量(αi,βi);其中,数据集S表示为:S={ei|i=1,2,...,N}

其中ei为数据集中的第i个实体,N为数据集中实体个数;

非结构化向量αi表示为:

其中m为非结构化向量的维数, 为非结构化向量αi在第j维的取值;

结构化向量βi表示为:

其中n为结构化向量的维数, 结构化向量βi在第j维的取值;

其中步骤(2)所述的基于结构化向量和非结构化向量相似性组合构建融合结构化和非结构化数据近邻图,指通过混合距离计算来评估各个实体向量(αi,βi)之间的相似性,从而每个实体向量(αi,βi)连接与其混合距离d最近的K个邻居,实体向量(α1,β1)与实体向量(α2,β2)间的距离d((α1,β1),(α2,β2))的计算公式为:d((α1,β1),(α2,β2))=d1(α1,α2)+wb·d2(β1,β2)其中,d1(α1,α2)为非结构化向量距离,d2(β1,β2)为结构化向量距离,其中wb为构建近邻图时结构化向量距离所占的权重,用于调控非结构化向量距离d1(α1,α2)和结构化向量距离d2(β1,β2)在混合距离d((α1,β1),(α2,β2))中的比重;

其中步骤(4)所述的混合查询向量q在融合结构化和非结构化数据近邻图上通过贪婪算法执行混合搜索得到查询实体的最近邻的过程中采用与以下混合距离计算方式,混合查询向量q=(qα,qβ)与实体向量(αi,βi)的混合距离d为:d(q,(α2,β2))=d1(qα,α2)+ws·d2(qβ,β2)qα为混合查询向量q的非结构化向量,qβ为混合查询向量q的结构化向量,ws调节混合距离中非结构化向量距离d1(qα,α2)和结构化向量距离d2(qβ,β2)所占的比重,通过改变ws从而调控混合搜索的性能。