欢迎来到利索能及~ 联系电话:18621327849
利索能及
我要发布
收藏
专利号: 2018115636592
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
专利领域: 电通信技术
更新日期:2024-10-29
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于改进的CNN‑LSTM的垃圾短信判别方法,其特征在于构建一个CNN和LSTM级联的网络模型,包括如下步骤:

步骤一、对短信进行预处理,统计短信数据集合大多数短信的平均长度,平均长度与最长短信的长度求和后除以2得到截止长度;对于长度小于截止长度的短信采用词向量拓展的方法进行补齐,对于长度大于截止长度的短信文本采用卡方检验进行词元的重要度划分排序,然后在截止长度处进行截断;通过对短信长度进行长度拓展和截断处理,保证输入维度的一致性,然后将预处理后的短信文本通过预训练词表映射为词向量;

步骤二、CNN网络对词向量进行特征提取,送入LSTM网络,其中CNN卷积层提取的完整特征接入到LSTM网络的输入门,CNN卷积层提取的特征并经过池化处理后的输出接入到LSTM的遗忘门,优化后LSTM的单元计算如下:ft=σ(Wf·[ht‑1,xt,p]+bf)it=σ(Wi·[ht‑1,xt,c]+bi)ot=σ(Wo·[ht‑1,xt,c]+bo)ht=ot*tanh(ct)

上式中,σ代表Sigmoid函数,tanh表示双曲正切激活函数;it、ft、ot和ct分别表示的为记忆单元的输入门、遗忘门、输出门和记忆单元状态的向量;bf、bi和bo为可学习的参数,分别表示遗忘门、输入门和输出门的偏差;xt,p表示CNN卷积后再经过池化层的输出,xt,c表示卷积层的输出,输入门、遗忘门和输出门的权重分别是由Wi、Wf和Wo表示;

步骤三、通过批归一化处理使得各个单元输出保持相同的分布;最后将LSTM网络的输出送入分类器中得到是不是垃圾短信的判断结果。