1.一种基于深度学习的文本内容安全检测方法,其特征在于:其包括以下过程:S1、采用爬虫方式从各社交App上获取独立的数据集作为训练数据,原始数据均转换为文本格式的词汇;
S2、对原始数据进行预处理,并采用将词汇重构为数字向量的word2vec算法简化计算与存储,该算法采用自然语言处理的模型‑continuousBag‑of‑Words模型,根据目标单词的上下文预测该目标单词含义,以实现文本检测,从而获得标词汇在给定句子中出现的概率,此概率为:P(wt|wt‑c:wt+c)
对于给定的一句话w1、w2...wt,该模型的目标函数就是最大化上式的对数似然函数:其中,L为似然函数、t为句子中向量的索引值、T为句子长度、c为上下文大小、wt‑c为句子中第一个向量、wt+c为句子中末尾向量;
wt为要预测的目标单词条件概率由如下表达式计算:
其中,n为任意一个句子的索引值、N为句子的个数、为一篇文章中句子的平均长度、j为句子的索引值;
S3、将处理后的数据利用随机森林算法减少冗余信息,之后再利用改进注意力Attention算法进行处理;改进注意力Attention算法具体为:a、将数据进行融合处理,转化张量tensor的维度;
b、将a中数据进行重塑reshape处理,改变张量tensor的形状;
c、将b中数据传入残差结构的两层3*3的卷积层,数据通过卷积操作之后再与未处理的数据进行相加;
d、将c中数据再次进行两次特征融合处理;
e、将d中数据进行展平flatten操作之后送入全连接层进行预测;
S4、将S3中处理后的数据通过改进的长短记忆网络LSTM模型进行训练并保存最终权重,所述LSTM模型中引入了改进版注意力机制,所述改进版注意力机制在传统注意力机制的全连接层之前添加了残差结构,以便于优化并提高准确率;
S5、将S4中处理后的数据并行传入到两个LSTM单元中进行训练,第一个LSTM单元对文本内容进行分类,如果属于第一类就不进行任何处理,如果属于第二类就给发送此文本的用户发送警告信息;另一个单元是检测文本中的敏感词汇,如果检测到了敏感词汇,则删除此文本的同时给发送此文本的用户发送警告信息。
2.根据权利要求1所述的基于深度学习的文本内容安全检测方法,其特征在于,在所述S1中,通过调用已有词库对采集不充足样本进行补充;在所述S2中,对原始数据集进行正负样本的标定,将褒义或中性的词标为正样本,贬义的词标为负样本。
3.根据权利要求1所述的基于深度学习的文本内容安全检测方法,其特征在于,所述残差结构的内部设有残差块,残差块使用跳跃连接以减少神经网络中梯度消失的问题。
4.根据权利要求1所述的基于深度学习的文本内容安全检测方法,其特征在于,通过word2vec算法将所有的词表示成低维稠密向量,从而能在词向量空间定性衡量词与词之间的相似性,并利用word2vec的词袋模型弱化词汇排序的重要性。
5.根据权利要求3所述的基于深度学习的文本内容安全检测方法,其特征在于,在所述Attention算法结构中加入残差结构,增加学习结果对网络权重波动的敏感度,所述安全检测方法通过改变模型参数,能构建不同的社交App文本内容检测器。