1.一种获取目标用户的方法,其特征在于,包括:获取多个用户的社交账号所关注的各个认证用户的验证文本信息,并提取所获取到的各个验证文本信息中的关键词;
计算各个所述关键词对应的向量;
根据各个所述关键词对应的向量,将各个所述关键词分为多个簇类,并根据所述多个簇类对所有的认证用户进行分类;
根据对所有认证用户的分类结果,并结合所述用户的社交账号关注的各个认证用户,确定所述用户是否为目标用户;
其中,所述根据各个所述关键词对应的向量,将各个所述关键词分为多个簇类包括:将各个所述关键词分为两个簇类;
分别计算每个簇类的几何中心和平均半径,所述平均半径为簇类的所有向量与簇类的几何中心之间的距离的平均值;
保留所述簇类中平均半径小于第二阈值的簇类;
将所述簇类中平均半径大于所述第二阈值的簇类再次划分为两个新的簇类,直至所有簇类的平均半径均小于所述第二阈值,得到最终的多个簇类;
分别将每个所述最终的多个簇类包含的所述关键词按照词频排序,取预设数量排序靠前的关键词输出。
2.根据权利要求1所述的获取目标用户的方法,其特征在于,所述提取所获取到的各个验证文本信息中的关键词包括:按照预设要求对各个验证文本信息进行分词;
将对所有验证文本信息的分词结果进行去除 干扰词处理;
将经过所述去除 干扰词处理后的分词结果中出现次数大于第一阈值的词组设定为关键词。
3.根据权利要求1所述的获取目标用户的方法,其特征在于,每个所述簇类对应一个标识;所述根据所述多个簇类对所有的认证用户进行分类具体为:根据从每个所述认证用户的验证文本中提取出的各个关键词对应的簇类,为每个所述认证用户设置相应的标识。
4.根据权利要求3所述的获取目标用户的方法,其特征在于,所述根据对所有认证用户的分类结果,并结合所述用户的社交账号关注的各个认证用户,确定所述用户是否为目标用户包括:获取所述用户的社交账号所关注的各个认证用户的标识,以及与预设标识相匹配的认证用户的标识的匹配个数;
根据所述用户的社交账号所关注的所有认证用户的个数和所述匹配个数,确定所述用户是否为目标用户。
5.一种获取目标用户的装置,其特征在于,包括:信息获取模块,用于获取多个用户的社交账号所关注的各个认证用户的验证文本信息;
关键词提取模块,用于提取所述信息获取模块获取到的各个验证文本信息中的关键词;
分类模块,用于将所提取的各个关键词分为多个簇类,并根据所述多个簇类对所有的认证用户进行分类;
处理模块,用于根据对所有认证用户的分类结果,并结合所述用户的社交账号关注的各个认证用户,确定所述用户是否为目标用户;
所述分类模块包括:
计算单元,用于计算各个所述关键词对应的向量;
簇类划分单元,用于根据各个所述关键词对应的向量,将各个所述关键词分为多个所述簇类;
其中,所述根据各个所述关键词对应的向量,将各个所述关键词分为多个簇类包括:将各个所述关键词分为两个簇类;
分别计算每个簇类的几何中心和平均半径,所述平均半径为簇类的所有向量与簇类的几何中心之间的距离的平均值;
保留所述簇类中平均半径小于第二阈值的簇类;
将所述簇类中平均半径大于所述第二阈值的簇类再次划分为两个新的簇类,直至所有簇类的平均半径均小于所述第二阈值,得到最终的多个簇类;
分别将每个所述最终的多个簇类包含的所述关键词按照词频排序,取预设数量排序靠前的关键词输出。
6.根据权利要求5所述的获取目标用户的装置,其特征在于,所述关键词提取模块包括:分词单元,用于按照预设要求对各个验证文本信息进行分词;
去干扰单元,用于将对所有验证文本信息的分词结果进行去除干扰词处理;
设定单元,用于将经过所述去除干扰词处理后的分词结果中出现次数大于第一阈值的词组设定为关键词。
7.根据权利要求5所述的获取目标用户的装置,其特征在于,每个所述簇类对应一个标识;所述分类模块具体用于:根据从每个所述认证用户的验证文本中提取出的各个关键词对应的簇类,为每个所述认证用户设置相应的标识。
8.根据权利要求7所述的获取目标用户的装置,其特征在于,所述处理模块包括:获取单元,用于获取所述用户的社交账号所关注的各个认证用户的标识,以及与预设标识相匹配的认证用户的标识的匹配个数;
确定单元,用于根据所述用户的社交账号所关注的所有认证用户的个数和所述匹配个数,确定所述用户是否为目标用户。