利索能及
我要发布
收藏
专利号: 2020102703469
申请人: 西安工程大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-17
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于图小波网络模型的文本分类方法,其特征在于,具体按照以下步骤实施:步骤1、对文本进行预处理;

步骤2、建立基于图小波网络模型并训练图小波网络模型;

步骤3、构建文本图,根据词与文档的关系,利用改进的TF-IDF算法建立文本图中词与文档的权重关系,根据词共现理论,利用PMI算法建立文本图中词与词之间的权重关系;

步骤4、将构建好的文本图,输入到图小波网络模型中,利用图小波卷积的局部化特性,捕获局部词共现信息,实现文本的分类。

2.根据权利要求1所述的一种基于图小波网络模型的文本分类方法,其特征在于,所述步骤1具体按照以下步骤实施:步骤1.1、利用python中的正则化库,进行分词、清洗数据中存在的乱码及标点符号;

步骤1.2、导入python中的nltk库,加载库中停用词,去除语料库中的停用词。

3.根据权利要求1所述的一种基于图小波网络模型的文本分类方法,其特征在于,所述步骤2具体为,建立图小波网络模型并用监督学习方法对标签文本训练集进行训练,利用Adam和误差反向传播进行参数更新。

4.根据权利要求3所述的一种基于图小波网络模型的文本分类方法,其特征在于,所述步骤2中建立图小波网络模型具体为一个两层的神经网络,每层有20个图卷积核个数,图小波变换以一组小波为基Ψs=(Ψs1,Ψs2,…,Ψsn),因此,图信号x的图小波变换为图小波逆变换为 图小波卷积定义为:其中,Ψs=UGsUT,Gs=diag((g(sλ1),…g(sλn))), U为拉普拉斯的特征向量, 代表哈达玛积,令 则上式可以简化为:则图小波网络模型为:

其中,Ψs为小波基, 为图小波变换矩阵, 是对角滤波矩阵,h为非线性函数,参数l代表第l层神经元,本模型采用两层的图卷积神经网络,其中第一层非线性激活函数为Relu,第二层非线性激活函数为softmax,则模型可以简化为:其中,W(0)和W(1)为权重矩阵, A为邻接矩阵,IN为单位矩阵,为将中心节点本身视为邻接节点。

5.根据权利要求3所述的一种基于图小波网络模型的文本分类方法,其特征在于,所述步骤2中利用Adam和误差反向传播进行参数更新具体包括:Adam算法具体为,假设前向传播得到最后一层的损失为L,参数更新规则为:其中,α为学习步长,即学习率,ξ为1e-07; 和 为使用Adam优化算法时,偏差修正值,其计算公式如下:其中,β1为动量梯度下降法的超参数,β2为均方根传播中的超参数,t为迭代次数;

设l层损失值为L,线性输出值为Z,经过非线性函数之后输出值为A,代价函数的计算公式为:其中,Ygf代表有标签的文档索引,F为输出特征的维度,则反向传播规则为:其中,g'为非线性激活函数的导数,参数W为训练过程中需要根据损失值进行更新,通过反向传播规则,利用公式(5)的参数更新规则,从而完成参数的更新。

6.根据权利要求1所述的一种基于图小波网络模型的文本分类方法,其特征在于,所述步骤3具体按照以下步骤实施:设无向图G=(V,E),其中V代表所有节点的集合,E代表边的集合,用拉普拉斯矩阵L=D-A表示图,其中A为邻接矩阵,代表两个节点之间的连接关系,D为度矩阵,代表每个节点与其他节点连接的个数,步骤3.1、根据语料库的特点,使用词与文档的关联构建无向文本图;在语料库中,节点V的数目为文档数加上文档中不重复出现的词的数目,根据词与文档的关系,如果词在该文档,则使用改进TF-IDF算法建立词与文档之间的权重关系;否则,词与文档之间的权重为0,改进TF-IDF算法具体计算公式为:其中,tfik指的是词i在文档k中出现的次数,N为总文档数,ni为出现词i的文档数,C为总类别数,ci为出现词i的类别数;

步骤3.2、根据词共现理论,采用PMI算法建立词与词之间的权重关系:其中,p(i,j)为词i和词j同时出现在同一窗口的概率,p(i)为词i出现在窗口中的概率,Nij为词i和词j出现在同一滑动窗口的数目,Ni为语料中包含词i的滑动窗口数目,N为语料中滑动窗口的总数目。