1.一种基于图嵌入的新词发现方法,其特征在于,包括:
使用滑动窗口切取待计算语料的N-GRAM字符串,计算各字符串的统计量,根据所述统计量为各字符串打分,选取得分满足要求的字符串写入新词候选集;
对所述待计算语料进行切词,基于切词结果构建图网络;
基于图注意力网络对所述图网络进行计算,得到所述待计算语料的词语的图嵌入;
在所述待计算语料的词语的图嵌入中找到新词候选集中包含词语的图嵌入,并基于通用词典中包含词语的图嵌入对所述新词候选集中包含词语的图嵌入进行筛选,将筛选得到的图嵌入对应的词语作为候选新词。
2.根据权利要求1所述的方法,其特征在于,所述计算各字符串的统计量,根据所述统计量为各字符串打分,选取得分满足要求的字符串写入新词候选集,具体为:计算各字符串的统计量,所述统计量包括:词频、平均互信息、左熵、右熵;
基于得分公式对各字符串进行打分,所述得分公式为:
TF*AMI*(2*(EI+Er)/(El*Er));
其中,TF为所述词频、AMI为所述平均互信息、El为所述左熵、Er为所述右熵;
根据各字符串的得分,选取得分大于规定阈值的字符串写入新词候选集。
3.根据权利要求2所述的方法,其特征在于,选取得分满足要求的字符串写入新词候选集后,所述方法还包括:将所述新词候选集加入所述通用词典;
所述对所述待计算语料进行切词,基于切词结果构建图网络,具体为:基于将所述新词候选集加入所述通用词典后的词典,对所述待计算语料采用词典最大概率切词,以切词后相邻的词语为节点构建图网络。
4.根据权利要求3所述的方法,其特征在于,所述基于通用词典中包含词语的图嵌入对所述新词候选集中包含词语的图嵌入进行筛选,具体为:遍历所述新词候选集中包含词语的图嵌入,根据与所述通用词典中包含词语的图嵌入的相似度对所述新词候选集中包含词语的图嵌入进行排序,根据排序选取规定数量的所述新词候选集中包含词语的图嵌入,在选取出的规定数量的图嵌入中筛选出与所述通用词典中包含词语的图嵌入的相似度满足规定阈值的图嵌入。
5.一种基于图嵌入的新词发现系统,其特征在于,包括:
新词候选集构建模块,使用滑动窗口切取待计算语料的N-GRAM字符串,计算各字符串的统计量,根据所述统计量为各字符串打分,选取得分满足要求的字符串写入新词候选集;
图嵌入训练模块,用于对所述待计算语料进行切词,基于切词结果构建图网络,并基于图注意力网络对所述图网络进行计算,得到所述待计算语料的词语的图嵌入;
新词筛选模块,用于在所述待计算语料的词语的图嵌入中找到新词候选集中包含词语的图嵌入,并基于通用词典中包含词语的图嵌入对所述新词候选集中包含词语的图嵌入进行筛选,将筛选得到的图嵌入对应的词语作为候选新词。
6.根据权利要求5所述的系统,其特征在于,所述计算各字符串的统计量,根据所述统计量为各字符串打分,选取得分满足要求的字符串写入新词候选集,具体为:计算各字符串的统计量,所述统计量包括:词频、平均互信息、左熵、右熵;
基于得分公式对各字符串进行打分,所述得分公式为:
TF*AMI*(2*(EI+Er)/(El*Er));
其中,TF为所述词频、AMI为所述平均互信息、El为所述左熵、Er为所述右熵;
根据各字符串的得分,选取得分大于规定阈值的字符串写入新词候选集。
7.根据权利要求6所述的系统,其特征在于,选取得分满足要求的字符串写入新词候选集后,所述新词候选集构建模块还用于:将所述新词候选集加入所述通用词典;
所述对所述待计算语料进行切词,基于切词结果构建图网络,具体为:基于将所述新词候选集加入所述通用词典后的词典,对所述待计算语料采用词典最大概率切词,以切词后相邻的词语为节点构建图网络。
8.根据权利要求7所述的系统,其特征在于,所述基于通用词典中包含词语的图嵌入对所述新词候选集中包含词语的图嵌入进行筛选,具体为:遍历所述新词候选集中包含词语的图嵌入,根据与所述通用词典中包含词语的图嵌入的相似度对所述新词候选集中包含词语的图嵌入进行排序,根据排序选取规定数量的所述新词候选集中包含词语的图嵌入,在选取出的规定数量的图嵌入中筛选出与所述通用词典中包含词语的图嵌入的相似度满足规定阈值的图嵌入。
9.一种电子设备,其特征在于,所述电子设备包括:壳体、处理器、存储器、电路板和电源电路,其中,电路板安置在壳体围成的空间内部,处理器和存储器设置在电路板上;电源电路,用于为上述电子设备的各个电路或器件供电;存储器用于存储可执行程序代码;处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,用于执行如权利要求1-4任一所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1-4任一所述的方法。