利索能及
我要发布
收藏
专利号: 2021105291145
申请人: 南京信息工程大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-30
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于特征级与传播关系网络的评论文本置信检测方法,其特征在于,所述检测方法包括:S1,输入需要处理的众包评论文本,对评论者与评论文本分别进行特征提取,得到预处理之后的特征集合;

S2,对于步骤S1得到的特征集合分别以贝塔分布与伯努利分布进行判定,结合判定结果将所有特征的分布联系起来得到类贝叶斯生成型概率模型;

S3,根据步骤S2所获得的类贝叶斯生成型概率模型,按照类贝叶斯方式,迭代使用先验与后验参数估计,学习出生成概率模型中各个待估计分布具体参数取值;

S4,获得任意评论者及其所对应评论文本的可疑度分布,计算评论者的可疑度S后进行降序排列;保留后M个可靠评论者发布的评论文本,剔除前K个疑似欺诈评论者发布的评论文本,M为预设的初步保留评论数量,K为预设的初步评论剔除数量;

S5,选取位于可疑度排序中间段的Q个评论者所发布的评论文本,构建含有评论者A‑评论文本R‑评论对象P三元关系的ARP传播关系网,其中ARP三类节点的个数由选取样本决定,Q=X‑M‑K,X为众包评论文本总数;

S6,利用已有评论者和评论文本获得ARP传播关系网中各节点的先验置信度,并对联合概率分布P(A,R,P)进行因子分解,将其转化为无向因子图;

S7,将ARP传播关系网中每个节点的先验置信度在相邻节点间交换,构成全局范围的置信传播,不断更新每个节点的置信度;

S8,利用置信传播计算得出ARP传播关系网中各类节点的最终置信度C;为R类节点计算可疑度S=1‑C并降序排列;剔除前K条疑似欺诈文本,保留剩余可靠文本,K为预设的最终评论剔除数量。

2.根据权利要求1所述的基于特征级与传播关系网络的评论文本置信检测方法,其特征在于,步骤S1中,评论者的特征集合包括用于以余弦相似度刻画评论者所发布评论集合Ra的最大相似度的特征CS、用于刻画评论者单日的最高发文量的特征MNR、用于表示评论者最后一条评论L(a)与首条评论F(a)的时间跨度的特征BST和用于刻画当前用户所发布评论1

集中占产品的首条评论R的比率的特征RFR;

所述特征CS、特征MNR、特征BST和特征RFR的计算公式分别为:MNR=maxPost(a)/maxa∈A(maxPost(a))其中,特征CS、特征MNR、特征BST和特征RFR的取值范围均为[0,1],取值越接近1,评论者a的可疑度越高;ri代表评论i,rj代表评论j,Ra代表评论者a发布的评论集合,i、j均为任意正整数;Post(a)代表评论者a单日的最高发文量,A代表评论者集合,τ为最后一条评论L(a)与首条评论F(a)的时间跨度判断标准,为整数,r是当前用户的任意一条评论, 是评论者a的首条评论集合。

3.根据权利要求1所述的基于特征级与传播关系网络的评论文本置信检测方法,其特征在于,步骤S1中,评论文本的特征集合包括用于刻画产品p所属评论集是否有与评论ra相似的内容的特征DUP、用于表示产品p上的评分是否存在两极性的特征EXT、用于刻画评论者a在产品p上的评论集中极值评分的跨度的特征RA、用于表示当前评论者在产品p上的评分与其他用户评分均值的差异的特征DEV和用于表示评论者a在产品p上的最后一次评论与产品上线时间On(p)之间的跨度的特征ETF;

所述特征DUP、特征EXT、特征RA、特征DEV和特征ETF的计算公式分别为:其中,特征DUP、特征EXT、特征RA、特征DEV和特征ETF的取值范围均为{0,1},取值越接近1,评论者a的可疑度越高;Rp是产品p所属评论集,β1、β2、β3、δ为任意正数;p(ra)是评论者a对产品p的评论,Ra,p是评论者a在产品p上发布的评论集合,L(a,p)是评论者a在产品p上的最后一次评论的时间。

4.根据权利要求1所述的基于特征级与传播关系网络的评论文本置信检测方法,其特征在于,步骤S2中,所述对于步骤S1得到的特征集合分别以贝塔分布与伯努利分布进行判定,结合判定结果将所有特征的分布联系起来得到类贝叶斯生成型概率模型的过程包括以下步骤:S21,记s与n分别表示可疑、不可疑类别;

S22,拟定任意评论者a的可疑度分布为S~Beta(αs,αn),任意评论文本的可疑度分布为αs、αn是Beta分布的初始参数,分别为可疑度与不可疑度;

S23,分别以Beta分布 刻画作用于评论者a的特征,以Bern分布刻画作用于评论文本r的特征;其中,作用于评论文本r的每个特征

都有Beta分布 是当前评论者特征的先验概率分布,

是作用于评论者的特征, 是作用于评论者的可疑特征, 是作用于评论者的不可疑特征, 是当前评论者的评论特征的先验概率分布, 是可疑特征以及不可疑特征,是作用于评论文本的可疑特征, 是作用于评论文本的不可疑特征;

S24,根据类贝叶斯生成型概率模型,按照下述公式,以评论文本ra可疑度分布为纽带,将特征级生成型概率模型视为一个整体,记为{S,π,θ,x,ψ,y}:

式中, 是评论者a发布的评论文本特征的先验概率。

5.根据权利要求4所述的基于特征级与传播关系网络的评论文本置信检测方法,其特征在于,步骤S3中,根据步骤S2所获得的类贝叶斯生成型概率模型,按照类贝叶斯方式,迭代使用先验与后验参数估计,学习出生成概率模型中各个待估计分布具体参数取值的过程包括:S31,对于任意评论者a,初始化αk与γk,k∈{s,n},分布ψk(ψs,ψn)使用随机初始值,通过初始参数获得先验概率分布S32,根据先验概率分布 按 抽取众包评论样本,由下述公式拟合得

式中, 是除ra以外的所有评论的先验概率分布; 是当给定类别k∈{s,n},含有取1特征fr∈Fr的样本数, 是当给定类别k∈{s,n},特征fr∈Fr的先验概率,nk是当给定类别k∈{s,n}时特征fr∈Fr的样本数, 是当给定类别k∈{s,n},不含有取0特征fr∈Fr的样本数,fa是评论者a的特征, 是当给定类别k∈{s,n},含有取1特征fa∈Fa的先验概率, 是当给定类别k∈{s,n},不含有特征fa∈Fa的先验概率;

S33,以抽样结果更新完统计信息 与 后,利用下述公式进行后验概率估计,更新分布

式中, 分别为当给定类别k∈{s,n}时,特征CS、MNR、

BST、RFR的后验概率; 是当给定类别k∈{s,n}时,所抽取众包评论样本中特征fa的均值,是当给定类别k∈{s,n}时,所抽取众包评论样本中特征fa的方差, 分别为当给定类别k∈{s,n},含有以及不含有特征fa∈Fa的后验概率;

S34,为评论者a进行后验概率估计,以下述公式计算极大对数似然损失函数 和求得 与 并采用L‑BFGS更新αk=(αs,αn)与 获得新的概率分布式中,Γ(·)是伽玛函数,na,s是评论者a所发布类别为s的评论数量,na,n是评论者a所发布类别为n的评论数量,na是评论者a所发布评论数量, 是当给定类别k∈{s,n},不含有取0特征fr∈Fr的后验概率。

6.根据权利要求1所述的基于特征级与传播关系网络的评论文本置信检测方法,其特征在于,步骤S6中,所述利用已有评论者和评论文本获得ARP传播关系网中各节点的先验置信度,并对联合概率分布P(A,R,P)进行因子分解,将其转化为无向因子图的过程包括:S61,以1‑S作为A类节点的初始置信度,即先验信息为S~Beta(αs,αn),以 作为R类节点的初始置信度,即 以 作为P类节点的初始置信度; 是评论者A发表关于产品P的评论的先验概率;

S62,将ARP传播关系网络所蕴含的A、R、P三类节点的置信度联合分布概率记为P(A,R,P),且视各节点置信度P(node)为联合分布P(A,R,P)的边缘概率。

7.根据权利要求6所述的基于特征级与传播关系网络的评论文本置信检测方法,其特征在于,步骤S7中,将ARP传播关系网中每个节点的先验置信度在相邻节点间交换,构成全局范围的置信传播,不断更新每个节点的置信度的过程包括:S71,将ARP传播关系网络所蕴含的置信度联合分布P(A,R,P)由下述公式分解为若干概率乘积:P(A,R,P)=P(A1)×P(A3)×P(A1|A2)×P(R2|A2)×P(P2|R3)×P(R1|A1,A2)×P(R3|R2,A3)×P(P1|R1,R2);

S72,将各概率用因子f替代,将置信度联合分布P(A,R,P)分解结果表示为下述公式所示的多个因子乘积:P(A,R,P)=f1(A1)f2P(A3)f3(A1,A2)f4(R2,A2)f5(P2,R3)f6(R1,A1,A2)f7(R3,R2,A3)f8(P1,R1,R2);

S73,基于因子分解结果,将置信度联合分布P(A,R,P)转化为对应无向因子图,每个节点与其相邻的一组变量共同表征某个具体的条件概率分布;

S74,将每个节点的先验置信度在相邻节点间交换,构成全局范围的置信传播,并在ARP传播关系网中不断更新每个节点的置信度,即边缘概率P(node);

S75,记任意A、R、P类变量节点为x,以μx→f(x)表示从变量节点x至因子节点f的信息流向,以μx→f(x)表示从因子节点f至变量节点x的信息流向,反复使用μx→f(x)与μf→x(x)以实现无向因子图中各节点的置信传播;

S76,定义 令无向因子图中根节点xroot至因子节点f的置信传播结果为1;

S77,采用下述公式进行因子节点fi至变量节点xq的置信传播计算过程,其中节点集合{x1,…,xn}与节点xq由因子节点fi相连接:式中,t是1至n的任意值;

节点集合{x1,…,xn}置信传播计算过程由形如μx→f(x)的信息流向进一步展开;

S78,采用下述公式进行变量节点xq至因子节点fi的置信传播计算过程,其中因子节点集合{f1,…,fn}与因子节点fi相邻,由fi经过一次相邻变量节点跳跃获得:S79,交替重复因子节点fi和变量节点xq的相互置信传播计算过程,经过多轮迭代,在全局范围内将各节点置信度传播至根节点xroot,并由下述公式计算出变量节点xq∈{A,R,P}的置信度,即边缘概率P(xq):

8.一种基于特征级与传播关系网络的评论文本置信检测装置,其特征在于,所述检测装置包括:特征提取模块,用于输入需要处理的众包评论文本,对评论者与评论文本分别进行特征提取,得到预处理之后的特征集合;

概率模型生成模块,用于对特征集合分别以贝塔分布与伯努利分布进行判定,结合判定结果将所有特征的分布联系起来得到类贝叶斯生成型概率模型;

参数学习模块,用于根据获得的类贝叶斯生成型概率模型,按照类贝叶斯方式,迭代使用先验与后验参数估计,学习出生成概率模型中各个待估计分布具体参数取值;

评论初步筛选模块,用于获得任意评论者及其所对应评论文本的可疑度分布,计算评论者的可疑度S后进行降序排列;保留后M个可靠评论者发布的评论文本,剔除前K个疑似欺诈评论者发布的评论文本,M为预设的初步保留评论数量,K为预设的初步评论剔除数量;

ARP传播关系网生成模块,用于选取位于可疑度排序中间段的Q个评论者所发布的评论文本,构建含有评论者A‑评论文本R‑评论对象P三元关系的ARP传播关系网,其中ARP三类节点的个数由选取样本决定,Q=X‑M‑K,X为众包评论文本总数;

因子分解模块,用于利用已有评论者和评论文本获得ARP传播关系网中各节点的先验置信度,并对联合概率分布P(A,R,P)进行因子分解,将其转化为无向因子图;

节点置信度更新模块,用于将ARP传播关系网中每个节点的先验置信度在相邻节点间交换,构成全局范围的置信传播,不断更新每个节点的置信度;

评论再筛选模块,用于利用置信传播计算得出ARP传播关系网中各类节点的最终置信度C;为R类节点计算可疑度S=1‑C并降序排列;剔除前K条疑似欺诈文本,保留剩余可靠文本,K为预设的最终评论剔除数量。

9.一种电子设备,其特征在于,包括:

一个或多个处理器;

存储装置,用于存储一个或多个程序,

当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1‑7中任一项所述的基于特征级与传播关系网络的评论文本置信检测方法。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1‑7中任一项所述的基于特征级与传播关系网络的评论文本置信检测方法。