利索能及
我要发布
收藏
专利号: 201911054827X
申请人: 杭州电子科技大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-03-26
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于Wide&Deep深度学习模型的文本预测方法,其特征在于包括如下步骤:步骤1:文本数据的预处理,进行对文本数据进行标注;

步骤2:人工特征提取,构建wide特征;

步骤3:构建Wide&Deep深度学习模型;

步骤4:对Wide&Deep深度学习模型进行训练;

步骤5:通过模型对文本内容进行预测;

步骤1具体实现如下:

1‑1.收集文本数据集X={x1,x2,…xN},N为总的训练样本数量;其中,xi∈{x1,x2,…xN},xi表示第i个待处理的文本数据;

1‑2.利用人工对文本数据进行标记,针对文本数据集中每一个文本数据xi,标记对应的yi,yi∈{0,1};标记文本数据的目的在于根据业务需要利用人工经验对文本数据进行分析,其中,1表示和业务相关,0表示不相关;

1‑3.利用Jieba分词器对文本数据集X进行分词,汇总得到所有文本数据的词表W,W={w1,w2…,wD},其中D为词表的总长度;wk表示词表中第k个词;则文本数据xi表示为其中kn表示文本数据xi中第n个词在词表W中的序号,从而用词表序号重新表示文本数据xi={k1,k2…,kn};

步骤2具体实现如下:

2‑1.统计文本数据集X中yi=1对应的所有文本数据xi中的词,得到出现频率最高的与业务相关的词,并排序获得序列Ⅰ;以及yi=0对应的所有文本数据xi中的词,得到出现频率最高的与业务不相关的词,并排序获得序列Ⅱ;

2‑2.排除序列Ⅰ和序列Ⅱ中的语法型词汇,包括代词、冠词、连词的停用词;

2‑3.将序列Ⅰ和序列Ⅱ中出现频率最高的文本特定词、j个高频词形成的组合作为wide特征,其中j范围为2‑4;

所述的排序通过计算如下两个公式进行:

对 和 分别进行排序获得序列Ⅰ和序列Ⅱ,获取序列Ⅰ中出现频率最大的5个词以及序列Ⅱ出现频率最大的5个词

2‑4.获得最终的wide特征

步骤3具体实现如下:

3‑1.对文本数据 的长度进行固定;

当文本数据的长度小于预设的固定长度时,使用“PAD”进行填充达到固定长度;

当文本数据的长度大于预设的固定长度时,丢弃超过预设的固定长度的部分;

如果文本数据中的词不在词表W中,使用“UNK”代替;

3‑2.建立每个词的embedding向量;将词表W中的所有词转化为预设的固定长度的稠密向量;

3‑3.获取一维卷积block;使用多个不同宽度的卷积核同时对embedding向量进行卷积;将每个卷积核的卷积结果进行拼接,得到一维卷积block,每次卷积后保证序列长度不变;

3‑4.多次叠加一维卷积;

利用3‑3定义的一维卷积block对wide特征进行处理,得到新的embedding向量,在每次卷积后使用窗口大小为4,步长为4的最大池化;每一次最大池化操作后长度缩小1/4;反复进行4次卷积和最大池化操作;获取最终序列长度变为64,特征长度为8;

3‑5.文本表示;将序列长度为64,特征长度为8的向量拉直成一个序列长度为512维的向量,得到整个文本序列的512维特征向量的表示;

3‑6.构建损失函数;使用全连接层将512维特征向量映射成(16+1)*2维的向量,再通过softmax函数,转化为(16+1)*2个文本数据标记yi的预测概率值,其中包括:1个文本数据标记的预测概率值,以及16个wide特征的预测概率值;损失函数表示为:其中,yi为文本数据标记,pi为文本数据标记yi的预测概率值,fi,k为wide特征值,qi,k为wide特征的预测概率值,i为数据标记的索引,表示第i个文本数据。

2.根据权利要求1所述的一种基于Wide&Deep深度学习模型的文本预测方法,其特征在于步骤4通过梯度下降算法,求得步骤3‑6中损失函数的最小化来训练模型。

3.根据权利要求2所述的一种基于Wide&Deep深度学习模型的文本预测方法,其特征在于步骤5对需要预测的文本内容,利用步骤3计算出文本数据标记yi的预测值,得到文本内容与业务的相关程度。