1.一种直播主题样本提取方法,其特征在于,该方法包括以下步骤:
S1:服务端获取指定周期内直播对象的文字数据信息,文字数据信息包括至少2组子文字数据信息,每组子文字数据信息包括子文字数据对象和对应的文字信息,转到S2;
S2:服务端设置若干在所述文字信息中出现过的直播主题样本,将所有直播主题样本保存形成样本词库,转到S3;
S3:服务端在每个子文字数据对象的文字信息中,统计每个直播主题样本对应的出现次数;将每个子文字数据对象中的每个直播主题样本对应的出现次数,按照所述样本词库中直播主题样本的排列顺序,排列形成文字数据对象的直播样本向量,转到S4;
S4:服务端将所有直播样本向量相加,得到直播主题样本向量;对直播主题样本向量中的每个数据A进行加权计算,得到加权值X,计算公式为X=TF·IDF,TF代表A对应的直播主题样本的词频,TF=A/C,C代表在S1中的所有文字信息中,每个直播主题样本对应的出现次数之和;IDF=log(W2/W1),W1代表出现过A对应的直播主题样本的文字数据对象的数量,W2代表S1中的所有文字数据对象的数量;
S1中所述直播对象为直播平台、直播间或直播用户:
当直播对象为直播平台时,1个子文字数据对象为指定周期内隶属于直播平台下同一直播主题的单个直播间,文字信息为该直播间在所述指定周期内收到的所有弹幕;
当直播对象为直播间时,1个子文字数据对象为指定周期内直播间中收到的单条弹幕,文字信息为该单条弹幕的具体信息;
当直播对象为直播用户时,1个子文字数据对象为指定周期内直播用户发送的单条弹幕,文字信息为该单条弹幕的具体信息。
2.如权利要求1所述的直播主题样本提取方法,其特征在于:S2还包括以下步骤:为每个所述直播主题样本设置对应的关联信息;S3中所述直播主题样本对应的出现次数为:直播主题样本与直播主题样本的关联信息的出现次数之和。
3.如权利要求1所述的直播主题样本提取方法,其特征在于:S3中所述在每个子文字数据对象的文字信息中,统计与每个直播主题样本及其关联信息的出现次数之前,还包括以下步骤:服务端设置停用词,在所有子文字数据对象的文字信息中剔除停用词。
4.一种计算机可读存储介质,该存储介质上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1至3任一项所述的方法。
5.一种电子设备,包括存储器和处理器,存储器上储存有在处理器上运行的计算机程序,其特征在于:处理器执行计算机程序时实现权利要求1至3任一项所述的方法。
6.一种直播主题样本提取系统,其特征在于:该系统包括设置于服务端上的文字数据信息获取模块、样本词库创建模块、直播样本向量设置模块和直播主题样本向量加权计算模块;
文字数据信息获取模块用于:获取指定周期内直播对象的文字数据信息,文字数据信息包括至少2组子文字数据信息,每组子文字数据信息包括子文字数据对象和对应的文字信息,向样本词库创建模块发送样本词库创建信号;
样本词库创建模块用于:收到样本词库创建信号后,设置若干在所述文字信息中出现过的直播主题样本,将所有直播主题样本保存形成样本词库,向直播样本向量设置模块发送直播样本向量设置信号;
直播样本向量设置模块用于:收到直播样本向量设置信号后,在每个子文字数据对象的文字信息中,统计每个直播主题样本对应的出现次数;将每个子文字数据对象中的每个直播主题样本对应的出现次数,按照所述样本词库中直播主题样本的排列顺序,排列形成文字数据对象的直播样本向量,向直播主题样本向量加权计算模块发送直播主题样本向量加权计算信号;
直播主题样本向量加权计算模块用于:收到直播主题样本向量加权计算信号后,将所有直播样本向量相加,得到直播主题样本向量;对直播主题样本向量中的每个数据A进行加权计算,得到加权值X,计算公式为X=TF·IDF,TF代表A对应的直播主题样本的词频,TF=A/C,C代表在文字数据信息获取模块中的所有文字信息中,每个直播主题样本对应的出现次数之和;IDF=log(W2/W1),W1代表出现过A对应的直播主题样本的文字数据对象的数量,W2代表文字数据信息获取模块中的所有文字数据对象的数量;
所述文字数据信息获取模块的直播对象为直播平台、直播间或直播用户:
当直播对象为直播平台时,1个子文字数据对象为指定周期内隶属于直播平台下同一直播主题的单个直播间,文字信息为该直播间在所述指定周期内收到的所有弹幕;
当直播对象为直播间时,1个子文字数据对象为指定周期内直播间中收到的单条弹幕,文字信息为该单条弹幕的具体信息;
当直播对象为直播用户时,1个子文字数据对象为指定周期内直播用户发送的单条弹幕,文字信息为该单条弹幕的具体信息。
7.如权利要求6所述的直播主题样本提取系统,其特征在于:所述样本词库创建模块还用于:为每个所述直播主题样本设置对应的关联信息;所述直播样本向量设置模块中的直播主题样本对应的出现次数为:直播主题样本与直播主题样本的关联信息的出现次数之和。
8.如权利要求6所述的直播主题样本提取系统,其特征在于:所述直播样本向量设置模块在每个子文字数据对象的文字信息中,统计与每个直播主题样本及其关联信息的出现次数之前,还用于:设置停用词,在所有子文字数据对象的文字信息中剔除停用词。