1.一种搜索词确定方法,其特征在于,包括:获取字符集合的标识;
对所述字符集合进行分词并去掉所述字符集合中的停用词,得到目标词集合;
求取所述标识与所述目标词集合中的每个目标词的互信息值;
将符合预设阈值条件的互信息值对应的目标词作为所述标识的搜索词。
2.根据权利要求1所述的方法,其特征在于,在所述获取字符集合的名称之前,包括;
确定字符集合的标识为直播间标识。
3.根据权利要求2所述的方法,其特征在于,所述获取字符集合的名称,包括;
将直播间的多个会话内容的集合作为字符集合;
将所述直播间标识作为所述字符集合的标识。
4.根据权利要求3所述的方法,其特征在于,所述将直播间的多个会话内容的集合作为字符集合包括:将直播间的每段会话内容作为一个文档;
将符合预设文档条件的文档所包含的字符作为字符集合。
5.根据权利要求1所述的方法,其特征在于,所述对所述字符集合进行分词并去掉所述字符集合中的停用词,得到目标词集合,包括:对所述字符集合进行预处理以更新所述字符集合,所述预处理包括中文繁体转中文简体和/或去特殊符号;
去除更新后的所述字符集合中的停用词,得到目标词集合。
6.根据权利要求4所述的方法,其特征在于,所述求取所述标识与所述目标词集合中的每个目标词的互信息值,包括:将目标词集合中出现次数或频率高于预设次数或频率的目标词作为对象目标词;
获取所述标识在所述目标词集合中的出现次数或出现频率;
获取所述标识与每个所述对象目标词在所述字符集合中的共现次数或共现频率;
根据所述对象目标词的出现次数或出现频率、所述标识的出现次数或出现频率以及所述标识与所述对象目标词的共现次数或共现频率,求取所述标识与所述对象目标词的互信息值;
其中,所述频率为出现次数或共现次数与所述文档数量的比值。
7.根据权利要求1-5任一所述的方法,其特征在于,所述将符合预设阈值条件的互信息值对应的目标词作为所述标识的搜索词,包括:对所述互信息值进行排序,并将符合预设排位条件的互信息值对应的目标词作为候选搜索词;
将出现次数或出现频率超过预设数值的候选搜索词作为所述标识的搜索词。
8.一种搜索词确定装置,其特征在于,包括:标识获取模块,用于获取字符集合的标识;
目标词集合获取模块,用于对所述字符集合进行分词并去掉所述字符集合中的停用词,得到目标词集合;
互信息值求取模块,用于求取所述标识与所述目标词集合中的每个目标词的互信息值;
搜索词确定模块,用于将符合预设阈值条件的互信息值对应的目标词作为所述标识的搜索词。
9.一种设备,其特征在于,所述设备包括:一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的搜索词确定方法。
10.一种包含计算机可执行指令的存储介质,其特征在于,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-7中任一所述的搜索词确定方法。