利索能及
我要发布
收藏
专利号: 2023114718581
申请人: 成都航空职业技术学院
专利类型:发明专利
专利状态:无效专利
更新日期:2026-05-14
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于机器学习的文本推荐方法,其特征在于,包括以下步骤:S1、提取用户信息字符串中的各个关键词向量;

S2、对各个关键词向量进行排列组合,得到不同的信息序列,并依据各信息序列中的关键词向量数量及各关键词向量在用户信息字符串中的权重,进行契合度评分;

S3、通过机器学习模型识别各信息序列的语义特征;

S4、计算每个信息序列的语义特征与待推荐文本的匹配度;

S5、根据契合度评分和待推荐文本的匹配度,计算每个信息序列与待推荐文本的推荐分值,对用户进行层次化文本推荐;

所述S2包括以下分步骤:

S21、对各个关键词向量进行排列组合,得到不同的信息序列;

S22、统计每个信息序列中关键词向量数量;

S23、根据每个信息序列中关键词向量在用户信息字符串的权重,得到信息序列重要度;

S24、根据每个信息序列中关键词向量数量和重要度,计算每个信息序列的契合度评分;

所述S24中计算每个信息序列的契合度评分的公式为:

其中,scorek为第k个信息序列的契合度评分,nuk为第k个信息序列中关键词向量数量,ink为第k个信息序列的重要度,k为信息序列的编号;

所述第k个信息序列的重要度ink的计算公式为:

其中,Lk,l为第k个信息序列中第l个关键词向量的长度,Kk,l为第k个信息序列中第l个关键词向量在用户信息字符串中出现的次数,Lu为用户信息字符串的长度,ωk,l为第k个信息序列中第l个关键词向量在用户信息字符串的权重,nuk为第k个信息序列中关键词向量的数量,l为关键词向量的编号。

2.根据权利要求1所述的基于机器学习的文本推荐方法,其特征在于,所述S3中机器学习模型包括:关键词处理单元、特征汇集单元、双通道特征提取单元和全连接层;

一个所述关键词处理单元的输入端用于输入信息序列中的关键词向量,关键词处理单元的数量大于等于2;所述特征汇集单元的输入端与各关键词处理单元的输出端连接,其输出端与双通道特征提取单元的输入端连接;所述全连接层的输入端与双通道特征提取单元的输出端连接,其输出端作为机器学习模型的输出端。

3.根据权利要求2所述的基于机器学习的文本推荐方法,其特征在于,所述关键词处理单元包括:第一ReLU激活层、第二ReLU激活层、第一tanh激活层、第二tanh激活层、归一化层、加法器和乘法器;

所述第一ReLU激活层的输入端分别与第二ReLU激活层的输入端和归一化层的输入端连接;所述第一tanh激活层的输入端与第一ReLU激活层的输出端连接,其输出端与加法器的第一输入端连接;所述第二tanh激活层的输入端与第二ReLU激活层的输出端连接,其输出端与加法器的第二输入端连接;所述乘法器的第一输入端与加法器的输出端连接,其第二输入端与归一化层的输出端连接;

所述双通道特征提取单元包括:Avgpool层、Maxpool层和LSTM层;

所述Avgpool层的输入端与Maxpool层的输入端连接,并作为双通道特征提取单元的输入端;所述LSTM层的输入端分别与Avgpool层的输出端和Maxpool层的输出端连接,其输出端并作为双通道特征提取单元的输出端。

4.根据权利要求3所述的基于机器学习的文本推荐方法,其特征在于,所述第一ReLU激活层的表达式为:,

其中,R1,t为第一ReLU激活层第t时刻的输出,ReLU为非线性激活函数,xt为第t时刻输入的关键词向量,wR1为第一ReLU激活层中第t时刻输入的关键词向量xt的权重,ra,t‑1为乘法器第t‑1时刻的输出,wRr1为第一ReLU激活层中乘法器第t‑1时刻的输出ra,t‑1的权重,bR1为第一ReLU激活层中的偏置,t为时刻的编号;

所述第二ReLU激活层的表达式为:

其中,R2,t为第二ReLU激活层第t时刻的输出,wR2为第二ReLU激活层中第t时刻输入的关键词向量xt的权重,wRr2为第二ReLU激活层中乘法器第t‑1时刻的输出ra,t‑1的权重,bR2为第二ReLU激活层中的偏置。

5.根据权利要求2所述的基于机器学习的文本推荐方法,其特征在于,所述特征汇集单元的表达式为:,

其中,Vt为特征汇集单元第t时刻的输出,ra,t,1为第1个关键词处理单元第t时刻的输出,ra,t,j为第j个关键词处理单元第t时刻的输出,ra,t,M为第M个关键词处理单元第t时刻的输出,M为关键词处理单元的数量,j为关键词处理单元的编号,wr,1为特征汇集单元中ra,t,1的权重,wr,j为特征汇集单元中ra,t,j的权重,wr,M为特征汇集单元中ra,t,M的权重, 为哈达玛积,t为时刻的编号。

6.根据权利要求1所述的基于机器学习的文本推荐方法,其特征在于,所述S4包括以下分步骤:S41、将待推荐文本按标点符号进行分句处理,得到多个短句文本;

S42、根据每个信息序列的语义特征与每个短句文本的余弦相似度,得到信息序列的语义特征与待推荐文本相似度;

S43、将每个信息序列的语义特征进行分词处理,得到每个词向量;

S44、统计每个词向量在待推荐文本中出现的次数;

S45、根据词向量在待推荐文本中出现的次数,以及信息序列的语义特征与待推荐文本相似度,得到信息序列的语义特征与待推荐文本的匹配度。

7.根据权利要求6所述的基于机器学习的文本推荐方法,其特征在于,所述S42中信息序列的语义特征与待推荐文本相似度的计算公式为:,

其中,Sk为第k个信息序列的语义特征与待推荐文本相似度,Sk,c为第k个信息序列的语义特征与第c个短句文本的余弦相似度,X为短句文本的数量;

所述S45中信息序列的语义特征与待推荐文本的匹配度的计算公式为:,

其中,Pk为第k个信息序列的语义特征与待推荐文本的匹配度,Ok,m为第k个信息序列的语义特征的第m个词向量在待推荐文本中出现的次数,wk,m为第k个信息序列的语义特征中第m个词向量的权重,T为一个信息序列对应的语义特征中词向量数量,m为词向量的编号,k为信息序列的编号。

8.根据权利要求1所述的基于机器学习的文本推荐方法,其特征在于,所述S5中计算信息序列与待推荐文本的推荐分值的公式为:,

其中,yk为第k个信息序列与待推荐文本的推荐分值,Pk为第k个信息序列的语义特征与待推荐文本的匹配度,scorek为第k个信息序列的契合度评分,ln为对数函数,e为自然常数。