1.一种文本主题抽取方法,其特征在于,所述方法包括:
服务器端基于各主题中的多个关键词权重构建第一矩阵W;客户端基于各文本对应的多个主题权重构建第二矩阵Hk,基于自身文本数据中各文本中的多个关键词权重构建文本特征矩阵Xk,所述客户端包括第一客户端和第二客户端;
所述服务器端将所述第一矩阵W发送给多个所述第一客户端;
各所述第一客户端获取自身的文本特征矩阵Xk,并结合所述第一矩阵W、所述第二矩阵Hk以进行小批量随机梯度下降训练,得到更新后的第一矩阵W,并上传至所述服务器端;
所述服务器端对所有第一客户端上传的更新后的第一矩阵W进行加权平均聚合,得到第三矩阵Wt,所述第三矩阵Wt中每一列为一个主题在各关键词上的权重;
所述服务器端将所述第三矩阵Wt发送给多个所述第二客户端进行所述小批量随机梯度下降训练,得到所有第二客户端更新后的第三矩阵Wt,并基于所有所述更新后的第三矩阵Wt进行加权平均聚合,得到第四矩阵Wt+1;
所述服务器端根据所述第三矩阵Wt和第四矩阵Wt+1进行收敛判断,得到第五矩阵Wi,基于所述第五矩阵Wi中各关键词的权重,对文本主题进行抽取;
其中,所述第一矩阵W、第三矩阵Wt、第四矩阵Wt+1和第五矩阵Wi都为m*r每个元素均非负的矩阵,所述第二矩阵Hk为r*n每个元素均为非负的矩阵,所述文本特征矩阵XK为m*n每个元素均非负的矩阵,m、r、n分别为全部关键词数目、主题数目和文本数目。
2.根据权利要求1所述的文本主题抽取方法,其特征在于,所述各所述第一客户端获取自身的文本特征矩阵Xk,并结合所述第一矩阵W、所述第二矩阵Hk以进行小批量随机梯度下降训练,得到更新后的第一矩阵W包括:将所述文本特征矩阵Xk中的数据分为多个小批量集数据;
提取一个所述小批量集数据,并结合所述第一矩阵W和第二矩阵HK,计算损失函数LK,得到损失值;
通过利用损失值进行反向传播,计算所述第一矩阵W和第二矩阵HK的梯度;
根据所述第一矩阵W和第二矩阵HK的梯度以及梯度下降算法,更新所述第一矩阵W和第二矩阵HK;
根据更新后的第一矩阵W和第二矩阵HK,结合另一所述小批量数据进行训练,以迭代更新,直至所述文本特征矩阵Xk的小批量集数据都使用完毕,得到所述更新后的第一矩阵W。
3.根据权利要求2所述的文本主题抽取方法,其特征在于,所述根据所述第一矩阵W和第二矩阵HK的梯度以及梯度下降算法,更新所述第一矩阵W和第二矩阵HK包括:计算上一次训练得到的第一矩阵W与当前得到的所述第一矩阵W的第一差值,以及学习率和当前所述第一矩阵W的梯度的第一乘积,根据所述第一差值等于所述第一乘积,更新第一矩阵W;
计算上一次训练得到的第二矩阵HK与当前得到的所述第二矩阵HK的第二差值,以及学习率和当前所述第二矩阵HK的梯度的第二乘积,根据所述第二差值等于所述第二乘积,更新第二矩阵HK。
4.根据权利要求1至3中任一项所述的文本主题抽取方法,其特征在于,所述根据所述第三矩阵Wt和第四矩阵Wt+1进行收敛判断,得到第五矩阵Wi包括:判断所述第三矩阵Wt和第四矩阵Wt+1的变化率与预设百分比容忍率的大小;
若所述变化率大于所述百分比容忍率,则将第四矩阵Wt+1发送给多个第三客户端进行所述小批量随机梯度下降训练,得到所有第三客户端更新后的第四矩阵Wt+1,并基于所有所述更新后的第四矩阵Wt+1进行加权平均聚合,得到第六矩阵Wt+2,直至相邻两轮训练得到的第四矩阵Wt+1和第六矩阵Wt+2的变化率小于预设的百分比容忍率为止;
若所述变化率小于所述百分比容忍率,则将最后一轮训练得到的矩阵作为所述第五矩阵Wi;
其中,第六矩阵Wt+2为m*r每个元素均非负的矩阵。
5.根据权利要求4所述的文本主题抽取方法,其特征在于,在所述基于自身文本数据中各文本中的多个关键词权重构建文本特征矩阵Xk之前,还包括:采用结巴分词对所述客户端中的文本数据进行分词处理以及停用词去除,得到切分后的词语。
6.根据权利要求5所述的文本主题抽取方法,其特征在于,在所述基于自身文本数据中各文本中的多个关键词权重构建文本特征矩阵Xk之前,包括:通过采用计数法或TF‑IDF对所述切分后的词语进行特征提取,得到所述关键词及其对应的权重;
根据所述关键词及其权重,构建所述文本特征矩阵Xk。
7.根据权利要求4所述的文本主题抽取方法,其特征在于,在所述服务器端对所有所述更新后的第一矩阵W进行加权平均聚合,得到第三矩阵Wt之前,还包括:接收所述第一客户端对应文本数据的样本量;
所述服务器端对所有所述更新后的第一矩阵W进行加权平均聚合包括:基于所述更新后的第一矩阵W对应的所述样本量,对所述更新后的第一矩阵W进行加权平均聚合。
8.一种文本主题抽取系统,其特征在于,所述系统包括通信连接的服务器端和至少四个客户端;
所述服务器端包括:
第一构建模块,用于基于各主题中的多个关键词权重构建第一矩阵W;
发送模块,用于将所述第一矩阵W发送给多个第一客户端;
更新模块,用于对所有第一客户端上传的更新后的第一矩阵W进行加权平均聚合,得到第三矩阵Wt,所述第三矩阵Wt中每一列为一个主题在各关键词上的权重;
迭代模块,用于将所述第三矩阵Wt发送给多个第二客户端进行小批量随机梯度下降训练,得到所有第二客户端更新后的第三矩阵Wt,并基于所有所述更新后的第三矩阵Wt进行加权平均聚合,得到第四矩阵Wt+1;
抽取模块,用于根据所述第三矩阵Wt和第四矩阵Wt+1进行收敛判断,得到第五矩阵Wi,基于所述第五矩阵Wi中各关键词的权重,对文本主题进行抽取;
所述客户端包括:
第二构建模块,用于基于各文本对应的多个主题权重构建第二矩阵Hk,基于自身文本数据中各文本中的多个关键词权重构建文本特征矩阵Xk;
训练模块,用于获取自身的文本特征矩阵Xk,并结合所述第一矩阵W、所述第二矩阵Hk以进行所述小批量随机梯度下降训练,得到更新后的第一矩阵W,并上传至所述服务器端;
其中,所述第一矩阵W、第三矩阵Wt、第四矩阵Wt+1和第五矩阵Wi都为m*r每个元素均非负的矩阵,所述第二矩阵Hk为r*n每个元素均为非负的矩阵,所述文本特征矩阵XK为m*n每个元素均非负的矩阵,m、r、n分别为全部关键词数目、主题数目和文本数目。
9.一种计算机设备,其特征在于,所述计算机设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一所述的文本主题抽取方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如权利要求1至7中任一所述的文本主题抽取方法。