买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于多词汇摘要的精确文档检索方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于多词汇摘要的精确文档检索方法

￥15000

专利号： 2019102008373

申请人：杭州环形智能科技有限公司

专利类型：发明专利

专利状态：已下证

更新日期：2025-09-11

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于多词汇摘要的精确文档检索方法，其特征在于：步骤如下，

第一，准备文章摘要，

a)给出任意一篇文章Para，核心词汇为Word_p，设定摘要为一个二维向量{S,W}，其中S为词汇，W为摘要权重，所述的权重W为浮点数，范围设定在0～100，向量W的全部总和不超过

100；

b)文章题目分词去除介词、副词之后，形成词列表向量Title{T}，文章分词之后，形成文章词组Para{P}；

c)统计全文高频词汇，依次排开，形成高频词汇向量F{f}；

d)以核心词汇Word_p为基准，在文章的出现的全部Word_p词汇，向前步长Lw，记录上下文想关性词汇Wr，获得Wr的集合{Wr}；

e)通过步骤a)-d)，得到集合Title{T}Para{P}F{f}{Wr}，去除集合中的介词、连词、副词，以下通过向量，计算{S,W}，作为之后的检索；

第二，生成文档摘要，

a)给出集合Title{T}中的所有元素，对于任意一项元素记为Title，在Para{P}中，如果Title不属于Para{P}集合，则将Title元素从Title{T}集合中删除；

b)给出集合Title{T}中的所有元素，其中任意一项元素记为Title，在F{f}中寻找该词组，如果F{f}中有词组Title，则当前Title元素设置初始权重W(Title)＝Wt*frequency(F(f))，所述的frequency表示当前词汇的频率，为一个浮点数，其中Wt为全局词频权重系数；

如果F{f}中没有词组Title，则W(Title)＝Wt*wt，所述的wt为标准词频系数，添加元素S＝Title，W＝W(Title)到集合{S,W}中；

c)给出集合Title{T}中的所有元素，将任意一项元素记为Title，对应Title元素，在集合{Wr}中寻找该元素，如果Title在{Wr}中，则建立一个向量之间的相关性估计，以Title做为主要元素，以Title{T}做为基准向量，以{Wr}r＝{Wr|word＝title}做为核准向量，进而得到W_rela＝relationship(title,Title{T},{Wr}r)，在集合{S,W}中取出S＝title元素，获得对应W空间，记为Wo，定义Wn＝Wo+W_rela*Wr，将{S,W}中对应W元素值被Wn替代；

d)将{S,W}矩阵变形，修改W的权重，形成{S,W}关键词摘要集合；

第三，精确检索信息，包括递进的检索、并联检索、串联检索或/和差量检索。

2.如权利要求1所述的基于多词汇摘要的精确文档检索方法，其特征在于：所述的步骤第一中的c)统计全文高频词汇，认定为出现次数/全文词量>rateA，依次排开，形成高频词汇向量F{f}。

3.如权利要求1所述的基于多词汇摘要的精确文档检索方法，其特征在于：所述的步骤第三，精确检索信息，将具有唯一的输入集合{Word1,Word2,Word3,…,Word4}设置为Input，检索步骤包括有优先级的并集检索，a)设定优先集合Input中任意两个元素Word_x，Word_y，如果序号x>y，认为Word_x比Word_y的优先级低，进而缩进全部的序列，保证最大化的序列中牵引信息；

b)从Word1开始，在摘要集合{S,W}中寻找使得Word1的W最大的前N个元素，作为集合{S,W}c1，以Word1、Word2为向量，在集合{S,W}c中寻找使得W最大的前N/2个元素，作为集合{S,W}c2。重复从Word1开始，在摘要集合{S,W}中寻找使得W最大的前N个元素，作为集合{S,W}c1，以Word1Word2为向量，在集合{S,W}c中寻找使得W最大的前N/2个元素，作为集合{S,W}c2。对于第三个词汇Word_3亦是如此，得到{S,W}c3。这样{S,W}集合会不断缩小，元素不断减少，直至整个Input中的词汇被使用；

c)如果到其中的一个步骤，{S,W}c集合中的元素个数小于预期最小元素数量Cmin，则停止；最终返回的{S,W}c集合所对应的Para集合，作为结果。

4.如权利要求1或3所述的基于多词汇摘要的精确文档检索方法，其特征在于：所述的步骤第三，精确检索信息，将具有唯一的输入集合{Word1,Word2,Word3,…,Word4}设置为Input，检索步骤包括，无优先级的并集检索，a)依次选择Input中的单个元素WI，在摘要集合{S,W}中寻找使得元素WI当前权重W最大的前N个元素，记作{Wi}，由此，Input中的全部元素将形成集合{S,{Wi}}；

b)将集合{S,{Wi}}按照S1＝S2，W＝W1+W2，的规则处理，让词频集合发生并操作；

c)然后在集合{S,{Wi}}中，计算relaW＝rever(WI,S,Wi)，并选取relaW中最大的前M个数值，数值对应{S,{Wi}}中词汇元素形成子集合Sc，Sc集合所指向的para为最终结果。

5.如权利要求4所述的基于多词汇摘要的精确文档检索方法，其特征在于：所述的步骤第三，精确检索信息，将具有唯一的输入集合{Word1,Word2,Word3,…,Word4}设置为Input，检索步骤包括，无优先级的交集检索，a)框定Input中全部集合元素为交集探索集合{Sd}；

b)在摘要集合{S,W}中，寻找能够属于Sd集合的元素，找到或没有找到属于Sd集合的元素：c)如果找到了属于Sd集合的元素，且有多项，选取对应W最大的前N项，用S映射为Para集合，作为结果；

d)如果找不到属于Sd集合的元素匹配的元素，则就在{Sd}集合中去掉一项，继续在摘要集合{S,W}中，寻找能够满足Sd集合的元素，直到找到匹配的元素，且有多项，选取对应W最大的前N项，用S映射为Para集合，作为结果，并记录当前结果到一个新的元素(S,W)，将此元素插入到摘要集合{S,W}中，最终返回Sd集合指向的Para元素集合。

6.如权利要求5所述的基于多词汇摘要的精确文档检索方法，其特征在于：所述的步骤第三，精确检索信息，将具有唯一的输入集合{Word1,Word2,Word3,…,Word4}设置为Input，检索步骤包括，无优先级的差集检索，a)Input中有两个集合：吸引力集合{belong}和排斥力集合{against}，把{belong}集合作为并集检索的Input集合，做并集处理，我们会得到摘要集合{S,W}的一个子集，记作{S,W}1；

b)把{belong}集合作为交集检索的Input集合，做交集处理，我们会得到摘要集合{S,W}的一个子集，记作{S,W}2；

c)将{S,W}1，{S,W}2集合中去除S元素在集合{against}中的部分，形成带有差量的{S,W}1，{S,W}2，记作{S,W}11，{S,W}22；

d)将{S,W}11，{S,W}22按照以下规则排序，将S同属于两个集合的元素取出，并且按照W从大到小排序，形成集合{S}h；将{S,W}11集合对{S}h集合的补集记作{S}m；将{S,W}22集合对{S}h集合的补集记作{S}l；

e)按照{S}h{S}m{S}l的顺序，形成一个新的集合{Ss}，{Ss}集合所对应的Para形成的集合为最终检索结果。

7.如权利要求5所述的基于多词汇摘要的精确文档检索方法，其特征在于：所述的步骤第三，精确检索信息，将具有唯一的输入集合{Word1,Word2,Word3,…,Word4}设置为Input，检索步骤包括，有优先级的递进检索，a)设置Input中全部元素为递进检索的元素，且按照元素序号变大，其优先级变低，即序号n>m，优先级priority(N)

b)设置递减比例因子为a，按照优先级逐渐变小的顺序，有若干词汇Wx；

c)每次都在摘要集合{S,W}c中取出权重最大的前a*count个元素，作为子集合{S,W}x，将所有Input生成的子集合{S,W}x做逻辑并操作merge，生成集合{S,W}merge；以Input中全部元素作为向量IN，在{S,W}merge中寻找包含IN中全部项目的元素，按照其权重W做排序；

d)在以Input中全部元素作为向量IN，在{S,W}merge中寻找包含IN中全部项目的元素，按照其权重W做排序的基础上，从优先级最低的Input元素开始，逐渐取出优先级低的元素，按照在以Input中全部元素作为向量IN，在{S,W}merge中寻找包含IN中全部项目的元素，按照其权重W做排序的基础上取出元素排序；其中同样长度的IN匹配的元素，按照权重排序；

而不同长度IN匹配的元素，长度越长权重越高；按照权重排序或长度越长权重越高的排序规则，生成排序元素(s,w)和其指向的文档para，并形成集合{S,W,Para}o；

e)按照检索要求在集合{S,W,Para}o中取出前N个元素，作为结果。

8.如权利要求1所述的基于多词汇摘要的精确文档检索方法，其特征在于：所述的步骤第二中的d)，所述的{S,W}矩阵变形通过高斯函数、开方函数，或者线性函数或常量变形。