1.一种容错的基于图谱架构的智能语义搜索方法,其所包含的步骤如下:
步骤1)根据已有资源,建立处理资源框架;
步骤2)获取用户投入的金额和预等待时间,建立用户投入模型,预等待时间决定搜索的次数、每次搜索的项数和每次要搜索的时间,设定每次搜索的项数和每项要搜索的时间是固定的:步骤3)获取用户搜索需求,允许用户以自然语言文本描述的形式输入其信息需求;
步骤4)提取用户搜索需求关键词;
步骤5)遍历处理资源架构,搜索相关资源,根据步骤4提取出的关键词,遍历处理资源架构,寻找相关资源;
步骤6)判断能否找到相关资源,若不能找到,在知识图谱上通过关系推理挖掘新的实体和关联关系,增强图谱结点密度和边密度,更新处理资源架构,然后重新遍历处理资源架构,寻找资源;
步骤7)构建模糊倾向性词汇表,模糊倾向性词汇指的是 “可能”、“或许”这种倾向性不确定的词语;
步骤8)对找到的资源根据倾向性按照正向和反向进行分类,答案中包括模糊倾向词汇表中词汇的资源视为无用资源;
步骤9)根据步骤(8)得到两种倾向性资源,统计正向资源和反向资源在资源总数所占的比重” “M表示用户投入的金额,T表示预等待时间,S_times表示搜索的次数、S_item表示每次搜索的项数,Pert_item表示每次要搜索的时间”、“weight表示两种倾向性资源,统计正向资源和反向资源在资源总数所占的比重,其中Resource正表示正向资源数,Resource反表示反向资源数,Resource总表示资源总数: 步骤10)根据步骤9得到的正反双向资源所占权重分配用户投入,确定正向和反向搜索分别要花费的时间和金额,进而确定正反双向搜索分别要递进搜索的次数:其中T(正/反)表示正向与反向搜索分别要花费的时间、M(正/反)表示正向与反向搜索分别要花费的金额、weight(正/反)表示正反双向资源所占权重,正/反表示的含义是正或反;
步骤11)根据步骤8得到的资源按照资源中的关键词进行关联因素递进搜索,并计算得到信息的熵值,熵值范围是0到1,熵值越大,信息倾向越分散,可信度越低,资源是有时效性的,是按照某一关联因素进行递进搜索时,在Tk时间下得到的资源的熵值,pi是每类答案出现的概率,entropy表示按照某一关联因素进行递进搜索时,在不同时效下得到资源的加权平均熵值,Timeliness是Tk时间资源的时效性,Ts是资源开始出现的时间,Tt是资源终止传播的时间,Tc是当前搜索者搜索资源的时间:(7)
步骤12)根据步骤9得到的递进搜索项的熵,计算资源可信度Confidence,设定在搜索前正反倾向的资源可信度都为1,n是搜索的次数,m是每次搜索的条目总数,itemi表示条目i,是按条目i递进搜索得到的资源的熵:(9)
步骤13)根据步骤10得到的资源的可信度,判断正向资源可信度和反向资源可信度的比值是否大于阈值T或小于1/T,该阈值可根据学习算法得到,若可信度比值满足阈值条件,返回可信度大的资源给搜索者;否则步骤11遍历处理资源架构继续递进搜索;
步骤14)获取用户反馈,若用户对答案不满意,提示用户是否增加投入重新检索,若用户增加了投入,返回步骤10重新分配正向和反向投入比例,继续递进搜索。