1.一种数据录入方法,其特征在于,包括:
对待录入数据库的待录入语句中的特征语句与所述数据库中的语句进行语义相似度计算,其中,所述数据库包括知识点,所述特征语句用于标识所述待录入语句;
若所述待录入语句中的特征语句与所述数据库中的语句的语义相似度小于预设的相似度阈值,则根据所述待录入语句生成新的知识点录入所述数据库;
若所述待录入语句中的特征语句与所述数据库中的语句的语义相似度大于预设的相似度阈值,则生成提醒信息以对录入数据的用户进行提醒;所述提醒包括可选的下步操作的提醒信息;
进行语义相似度计算之前还包括:
提取所述待录入语句中的特征语句的关键词组,以得到待录入关键词组;
提取所述数据库中的语句的关键词组,以得到已有关键词组;
当所述已有关键词组中未包括所述待录入关键词组时,执行所述语义相似度计算;
当所述已有关键词组中包含所述待录入关键词组时,则生成提醒信息以对录入数据的用户进行提醒,包括提醒用户选择是否将待录入语句作为与数据库中最大语义相似度的标准问的扩展问进行录入;
所述知识点包括特征语句和解释语句,所述特征语句包括问句,所述解释语句包括答句,所述待录入语句仅包括特征语句;
根据所述待录入语句生成新的知识点录入所述数据库,包括:根据所述待录入语句的特征语句生成新的知识点的特征语句;
录入所述新的知识点的特征语句至数据库;
提醒录入数据的用户输入所述新的知识点的解释语句;或
所述待录入语句包括特征语句和解释语句;
根据所述待录入语句生成新的知识点录入所述数据库,包括:拆分所述待录入语句中的特征语句和解释语句,将所述待录入语句中的特征语句作为所述数据库中的新的知识点中的特征语句,将所述待录入语句中的解释语句作为所述数据库中的新的知识点中的解释语句;
所述进行语义相似度计算包括:
对所述待录入语句中的特征语句进行分词处理,以得到分词后的词语;
根据对待录入语句中的特征语句的语义影响值,对所述分词后的词语进行筛选,以得到筛选后的词语;
匹配所述筛选后的词语和所述知识点中的语义表达式,以得到所述语义相似度;
其中,所述语义表达式由所述筛选后的词语和所述知识点中的单词、所述单词的词类以及所述单词间的或关系构成。
2.根据权利要求1所述的数据录入方法,其特征在于,所述知识点包括标准问和扩展问;
所述数据录入方法还包括:若所述待录入语句与所述数据库中的语句的语义相似度大于预设的相似度阈值,则将所述待录入语句中的特征语句作为数据库中与所述待录入语句的特征语句的语义相似度最高的标准问的扩展问。
3.根据权利要求1所述的数据录入方法,其特征在于,通过爬虫爬取的数据生成所述待录入语句,或基于人工客服问答语句生成所述待录入语句。
4.根据权利要求1所述的数据录入方法,其特征在于,根据对待录入语句的语义影响值对所述分词后的词语进行筛选包括:去除语气词以及助词。
5.一种数据录入系统,其特征在于,包括:
语义相似度计算单元,适于对待录入数据库的待录入语句中的特征语句与所述数据库中的语句进行语义相似度计算,其中,所述数据库包括知识点,所述特征语句用于标识所述待录入语句;
新的知识点录入单元,适于若所述待录入语句中的特征语句与所述数据库中的语句的语义相似度小于预设的相似度阈值,则根据所述待录入语句生成新的知识点录入所述数据库;
第一提醒单元,适于若所述待录入语句中的特征语句与所述数据库中的语句的语义相似度大于预设的相似度阈值,则生成提醒信息以对录入数据的用户进行提醒;所述提醒包括可选的下步操作的提醒信息;
待录入关键词组提取单元,适于进行语义相似度计算之前提取所述待录入语句中的特征语句的关键词组,以得到待录入关键词组;
已有关键词组提取单元,适于提取所述数据库中的语句的关键词组,以得到已有关键词组;
执行单元,适于当所述已有关键词组中未包括所述待录入关键词组时,执行所述语义相似度计算;
第二提醒单元,适于当所述已有关键词组中包含所述待录入关键词组时,则生成提醒信息以对录入数据的用户进行提醒,包括提醒用户选择是否将待录入语句作为与数据库中最大语义相似度的标准问的扩展问进行录入;
所述知识点包括特征语句和解释语句,所述特征语句包括问句,所述解释语句包括答句,所述待录入语句仅包括特征语句;
所述新的知识点录入单元,包括:
新的知识点的特征语句生成子单元,适于根据所述待录入语句的特征语句生成新的知识点的特征语句;
新的知识点的特征语句录入子单元,适于录入所述新的知识点的特征语句至数据库;
解释语句提醒子单元,适于提醒录入数据的用户输入所述新的知识点的解释语句;或所述待录入语句包括特征语句和解释语句;
所述新的知识点录入单元适于:拆分所述待录入语句中的特征语句和解释语句,将所述待录入语句中的特征语句作为所述数据库中的新的知识点中的特征语句,将所述待录入语句中的解释语句作为所述数据库中的新的知识点中的解释语句;
所述语义相似度计算单元包括:
分词处理子单元,适于对所述待录入语句中的特征语句进行分词处理,以得到分词后的词语;
筛选子单元,适于根据对待录入语句中的特征语句的语义影响值,对所述分词后的词语进行筛选,以得到筛选后的词语;
匹配子单元,适于匹配所述筛选后的词语和所述知识点中的语义表达式,以得到所述语义相似度;
其中,所述语义表达式由所述筛选后的词语和所述知识点中的单词、所述单词的词类以及所述单词间的或关系构成。
6.根据权利要求5所述的数据录入系统,其特征在于,所述知识点包括标准问和扩展问;所述数据录入系统还包括扩展问录入单元,适于若所述待录入语句与所述数据库中的语句的语义相似度大于预设的相似度阈值,则将所述待录入语句中的特征语句作为数据库中与所述待录入语句的特征语句的语义相似度最高的标准问的扩展问。
7.根据权利要求5所述的数据录入系统,其特征在于,通过爬虫爬取的数据生成所述待录入语句,或基于人工客服问答语句生成所述待录入语句。
8.根据权利要求5所述的数据录入系统,其特征在于,所述筛选子单元适于去除语气词以及助词。
9.一种数据库,其特征在于,所述数据库包括知识点,且所述数据库中的知识点的至少一部分通过如权利要求1至4任一项所述的数据录入方法录入,所述数据库用于支持智能交互过程。