1.一种基于用户文本生成内容的小众偏好学习方法,其特征在于,包括以下步骤:步骤1、对于获取到的用户文本生成内容进行数据预处理操作;
步骤2、将步骤1预处理得到的数据建立一个分层贝叶斯模型,得到联合分布模型;
步骤3、通过吉布斯抽样方法学习步骤2的模型参数,得到大众偏好分布和小众偏好分布公式;
步骤4、利用步骤3学习到的模型参数,分析基于用户文本生成内容的用户小众偏好的含义;
步骤5、利用用户小众偏好分布寻找小众偏好下的目标用户;
所述分层贝叶斯模型中得到联合分布如下式:
式中,w表示文档中的单词; 表示每个单词属于的偏好,前面表示单词属于大众偏好,后面为小众偏好;y为二元变量,表示单词生成过程是受大众偏好的影响还是小众偏好的影响; 为先验分布的超参数;first表示二元变量y的联合分布;
second表示用户u的大众偏好分布;third表示大众偏好 单词的分布;fourth表示用户u的小众偏好分布;fifth表示小众偏好 下的单词分布;
所述Fourth 的求解公式如下式:
式中, 表示用户u中小众偏好k中单词w出现的次数; 表示文档‑小众偏好的分布;
所述Fifth的求解公式如下式:
式中, 表示小众偏好中词汇v出现的次数, 表示第i个单词, 表示把第i个单词从文档和偏好中去除; 表示小众偏好‑单词分布。
2.根据权利要求1所述的一种基于用户文本生成内容的小众偏好学习方法,其特征在于,所述数据预处理操作首先对获取的文档去除非文本的部分,然后对文档进行分词操作,最后对分词后的文档进行清洗工作,得到数据预处理完成的U个文档。
3.根据权利要求1所述的一种基于用户文本生成内容的小众偏好学习方法,其特征在于,所述first的求解公式如下式:式中, 表示指数y在用户u中出现的次数;为每一个单词的伯努利分布;
所述second 的求解公式如下式:
式中, 表示文档u中大众偏好m中单词w出现的次数; 表示文档‑大众偏好的分布;
所述Third 的求解公式如式如下式:
式中, 表示词汇v在大众偏好m中出现的次数; 表示大众偏好‑单词分布。
4.根据权利要求3所述的一种基于用户文本生成内容的小众偏好学习方法,其特征在于,所述大众偏好分布公式如下:小众偏好分布公式如下:
。
5.根据权利要求4所述的一种基于用户文本生成内容的小众偏好学习方法,其特征在于,所述步骤3模型参数的参数结果如下:。
6.根据权利要求5所述的一种基于用户文本生成内容的小众偏好学习方法,其特征在于,所述步骤4中用户的小众偏好的含义识别过程如下:用户的小众偏好包括两部分为文档‑小众偏好分布 和小众偏好‑单词分布 ,将每一个小众偏好的单词分布中的单词按照概率大小排序,即 在不同单词下的概率,选择前十个单词进行分析,从而识别出小众偏好的具体含义。
7.根据权利要求6所述的一种基于用户文本生成内容的小众偏好学习方法,其特征在于,所述步骤5中寻找小众偏好下的目标用户过程如下:利用用户小众偏好分布 寻找小众偏好下的目标用户,每一个用户的小众偏好分布即为文档的小众偏好分布,如下式:随机挑选用户,分析他们在不同小众偏好下的概率,从而找到不同小众偏好下的目标用户。
8.一种用于执行权利要求1‑7任一项所述基于用户文本生成内容的小众偏好学习方法的系统,其特征在于,包括:数据获取预处理模块,用于获取文档信息,并对获取的文档信息进行筛分清洗,得到预处理数据;
数据处理模块,用于将数据获取预处理模块预处理得到的数据进行大众偏好分布和小众偏好分布区分;
分析模块,用于分析基于用户文本生成内容的用户小众偏好的含义;
寻找模块,用于利用用户小众偏好分布寻找小众偏好下的目标用户。
9.一种基于用户文本生成内容的小众偏好学习控制器,储存有运行权利要求1‑7任一项所述的基于用户文本生成内容的小众偏好学习方法的程序。