1.一种基于语义概念空间的工业产业链的分布式索引方法,其特征在于,包括:步骤1,建立基于工业大数据和网络特征分析的语义概念空间模型语义概念空间是一个由数据集、关键词层语义链网络tSLN以及概念层语义链网络cSLN共同构成的一个开放系统;
首先通过对工业领域中从客户需求到销售、订单、计划、研发、设计、工艺、制造、采购、供应、库存、发货和交付、售后服务、运维、报废或回收再制造整个产品全生命周期各个环节所产生的各类数据,包括生产经营相关业务数据,设备物联数据,外部数据,进行归一化与标准化处理并构建数据集;然后针对数据集进行语义信息挖掘,文本分词,关键词提取和关联规则获取,得到关键词集合和概念集合;
T
关键词层语义链网络tSLN是由关键词及其语义关系集合R构成的网络,表示为:T T
tSLN=
其中T为网络的顶点集合或称为关键词集合,每个顶点表示一个关键词;R 表示网络中边的集合,关键词之间可以同时存在多种语义关系,其中ti,tj为边的两个顶点,wa边表示两个顶点ti,tj之间的关联语义关系的权值,ws表示两个顶点ti,tj之间的相似语义关系的权值;
采用关联语义关系的关键词语义链网络的构建算法为:获取数据集中的关键词集合,利用关联规则集合算法获取关键词集合中任意两个关键词的关联规则;
以关键词集合T作为tALN的顶点集合,顶点集合中的每个顶点为一个关键词;
为每两个关键词(A,B)之间设置一个关联语义关系的权值,设置规则是:如果ARAB存在,则WARAB=weightAB,否则WARAB=0;ARAB表示从关键词A到关键词B的关联规则,weightAB表示ARAB的权值,初始权值由使用者自行设定;
根据关键词语义链网络中关联规则的使用情况不断更新关键词之间的关联语义关系的权值;
通过设置不同的关键词对的关系权值,建立关键词之间的连接,形成关键词层语义链网络;
C
概念层语义链网络cSLN是由概念集合C所有的概念及其语义关系R 构成的网络,表示为:
C C
cSLN=
其中C是网络的顶点集合,每个顶点表示一个概念;R是网络中边的集合,概念之间存在着多种语义关系,每条边描述为一个三元组(cicj,[wa,ws]),其中cicj为两个边的顶点,wa表示cicj之间的关联语义关系的权值,而ws表示cicj之间相的似语义关系的权值;
所述概念层语义链网络cSLN的构建方法为:选取概念集合的中心节点概念作为候选概念,通过度分步法,绘制顶点度分布曲线,虚线为度,而实线为对应顶点数量曲线,二条线的交点即为所求的度阈值,设定节点度的阈值,度大于阈值的概念作为候选概念;
为每一个概念选择属性词及属性词的语义关系对概念进行语义表示,构建概念的小粒度语义空间:首先,构造概念的候选属性集,从概念集合中,依次选取概念节点的一阶邻居节点概念、二阶邻居节点概念、……作为候选属性形成概念的候选属性集;然后,从候选属性集中筛选概念的属性;从候选属性集中不断选择概念加入概念的语义空间,直到空间进入稳定状态为止;
步骤2,分布式索引构建
对语义概念空间中的关键词语义链网络tSLN和概念层语义链网络cSLN进行预处理,然后对预处理之后的数据进行分布式构建并储存在各个分布式节点上;获取用户的检索要求,并分发到各个节点上,节点获得请求后,开始检索语义概念空间并返回检索结果,对节点返回的数据进行合并排序,返回给用户。
2.根据权利要求1所述的基于语义概念空间的工业产业链的分布式索引方法,其特征在于,所述根据关键词语义链网络中关联规则的使用情况不断更新关键词之间的关联语义关系的权值,包括:
使用关联规则ARC的贡献率来代表ARAB的重要程度,其中p是此关联规则ARAB的已使用数量,q是所有关联规则的已使用总数;
定义关联规则贡献率为ARC=p/q;当用户查询过程中,同时关联了关键词A和关键词B,则增加了关联规则ARAB的使用次数;
关键词A和B之间的关系受以上两个因素影响,对关键词对(A,B)的关联规则ARAB的权值weightAB更新为:
kawAB=α*weightAB+β*weightAB*ARC,α+β=1,要求α>β。
3.根据权利要求2所述的基于语义概念空间的工业产业链的分布式索引方法,其特征在于,如某关键词对的关联规则在用户查询过程中没有用到,则该关键词对的关联规则的权值采用初始权值不进行修正。
4.根据权利要求1所述的基于语义概念空间的工业产业链的分布式索引方法,其特征在于,所述关键词包括单个的词以及各种短语、词组。
5.根据权利要求1所述的基于语义概念空间的工业产业链的分布式索引方法,其特征在于,当只使用其中的某一种语义的时候,将另一种语义关系权值设置为0。
6.根据权利要求1所述的基于语义概念空间的工业产业链的分布式索引方法,其特征在于,所述初始权值在0.4‑0.6之间。
7.根据权利要求1所述的基于语义概念空间的工业产业链的分布式索引方法,其特征在于,所述对语义概念空间中的关键词语义链网络tSLN和概念层语义链网络cSLN进行预处理,然后对预处理之后的数据进行分布式构建并储存在各个分布式节点上,包括:基于建立的语义概念空间,进行聚类去重处理,采用Lucene分词处理语义概念空间的数据,进行封装处理,并形成文件块;
Hadoop分布式文件系统将文件块划分为数据块,通过Map‑Reduce进行语义数据分解处理,建立多个由关键词/概念及文件名列表相关的索引文件;
将所得索引文件上传到分布式系统上,根据关键字/概念的不同,以及文件内容属性存放在不同的位置,进行数据分块并将索引文件分别储存到个分布式系统中的各个节点。