利索能及
我要发布
收藏
专利号: 2019108832028
申请人: 桂林电子科技大学
专利类型:发明专利
专利状态:无效专利
更新日期:2025-10-14
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于NLP和模糊多准则决策的文本实体推荐方法,其特征在于,包括如下步骤:

1)采用word2vec对文本进行词向量训练:采用连续词袋模型即CBOW并根据文本语料的原始输入完成文本语料分布式训练,并且转化成词向量,采用的连续词袋模型包括三层的神经网络;

2)对每个词向量进行相似度计算:将步骤1)中文本语料词向量训练得到的多维度向量进行相似度计算,如公式(1)所示:

其中,A=(A1,A2,…,An)和B=(B1,B2,…,Bn)为两个n维向量,||A||和||B||分别为向量A和B的模,对于两个多维度向量A和B,向量A和向量B的空间点积,然后除以两者的模,得到的结果便是两者向量之间的相似度cosθ;经过步骤1)、步骤2)的语料转化为向量,再经过余弦相似度转化为相似度,并且得到的余弦相似度的取值范围为[0,1];

3)构造模糊多准则决策的推荐过程:一个文本实体多准则决策即MCDM问题描述为有一组备选实体A={A1,A2,…,Am},一组标准C={C1,C2,…,Cn}和一个决策矩阵M:其中A1,A2,…,Am是不同的选择,C1,C2,…,Cn是不同的标准,vi,j(i=1,2,…,m,j=1,

2,…,n)是选择i对于准则j的数值,根据集合A、集合C和矩阵M,将文本实体多准则决策问题描述为:在基于标准集合C和决策矩阵M的A级元素等级的帮助下做出决定,对于实体推荐问题,在文本中选出m个候选实体作为备选方案(A1、A2、…),这些实体的选择标准是n个不同的实体,C={C1,C2,…,Cn},则数值vi,j可表示为候选实体与标准实体之间的相似度,基于此,实体推荐问题描述为:基于决策矩阵M和标准实体集合,从m个候选实体中选择出与n个标准实体总体相似度最大的实体;

4)量化实体词向量相似度参数:选择模糊数表示实体之间的相似度,而模糊数必须符合数值范围在0‑1之间,量化数值vi,j(i=1,2,…,m,j=1,2,…,n)到模糊数中,构造比率模型,其中每个vi,j与作为A1、A2、…的表示的分母进行比较,最佳的比率模型是该分母的每个选择准则的平方和的平方根即如公式(2)所示:其中i=1,2,…,m,j=1,2,…,n,rij是vi,j的比值,0≤rij≤1,数值vi,j可以量化为模糊数

5)构造模糊决策标准矩阵:在矩阵M中,数值vi,j(i=1,2,…,m,j=1,2,…,n)已经被量化为模糊数(i=1,2,…,m,j=1,2,…,n),矩阵M被转换成一个元素为模糊数的矩阵MF,将模糊决策矩阵构造为:

模糊决策矩阵MF被标准化为公式(3):MN=[Θi,j]m×n            (3)其中,Θi,j=则Cj为效益标准,Θi,j=<1‑rij>则Cj为成本准则;

6)用相对比较法确定标准实体的权重:首先,将任意两个标准实体Ci,Cj进行相对重要性比较,得到一个相对评分,记为aij,采用两个实体之间的相似度表示相对评分aij,用0,

0.1,0.2,0.4,0.5,0.6,0.8,0.9,1分别代表绝对不相似、明显不相似、相当不相似、略微不相似、同等相似、略微相似,相当相似、明显相似和绝对相似,得到判断矩阵:其中,aij=1‑aji,

则标准实体Ci的权重wi可表示为公式(4):

7)使用模糊聚合算子量化实体推荐过程的总体用户偏好:采用模糊聚合算子的多准则决策方法来实现对候选实体的总体用户偏好的评估,用步骤5)和步骤6)中的标准化矩阵MN和权值集w={w1,w2,…,w3}中的权值作为输入,采用加权模糊聚合算子,量化n个候选推荐实体的用户偏好;

8)得到被推荐实体的排名,进行推荐:基于量化的总体用户偏好,可通过模糊数的比较规则生成候选实体排名序列,根据排名,选择最合适的实体用于推荐。

2.根据权利要求1所述的基于NLP和模糊多准则决策的文本实体推荐方法,其特征在于,步骤1)中所述的连续词袋模型包括三层神经网络,为一个用于快速训练得到词向量的神经网络模型,原理是中心词的前R个词和后R个词来预测中心词,假设中心词是wi的上下文来训练其词向量,则有公式(5):

C(wi)={wj|j∈[i‑R,i)∩[i+1,i+R)}           (5)输入的是2R‑1个上下文的平均值如公式(6)所示:其中有e(wi)则定义为词向量W|V|*|D|中取出词wi所对应的那一行或者那一列,|V|则是词典的大小,一般是|D|是选择的词向量的长度,其中W|V|*|D|对应的是向量矩阵,X指的是经过窗口R滑动之后对应哪个词向量i维度的训练值,公式(5)、公式(6)表示取距离为R的窗口,对其进行一个滑动,将前R个、包括自己文本的独热向量,以及后R个、包括自己的共2R‑1个中文实体所对应的独热向量,所对应的维度累加并且对其求平均,最后循环迭代,得到一个多维度的词向量。

3.根据权利要求1所述的基于NLP和模糊多准则决策的文本实体推荐方法,其特征在于,步骤8)中所述的比较规则定义为:设Θ1=(μ1,v1)andΘ2=(μ2,v2)为任意两个模糊数,S(Θ1)和S(Θ2)为对应的得分函数,A(Θ1)和A(Θ2)为精确度函数,则:(1)如果S(Θ1)>S(Θ2),则Θ1>Θ2;

(2)如果S(Θ1)=S(Θ2),则:(2‑1)若A(Θ1)>A(Θ2),则Θ1>Θ2;

(2‑2)若A(Θ1)=A(Θ2),则Θ1=Θ2,基于量化的总体用户偏好,也就是聚合成候选实体所对应模糊值,通过模糊数的比较规则生成候选实体排名序列。