1.一种标注数据获取方法,其特征在于,包括:获取正则表达式格式的文本数据;
基于所述正则表达式,将所述文本数据组合成语料数据,并得到所述语料数据的以下任意一种或多种标签:领域、意图、槽位;
基于所述标签及所述语料数据,生成包括标注结果的数据集合。
2.根据权利要求1所述的方法,其特征在于,所述正则表达式中:将可相互替换的多份内容填充于同一标号区间中,同一标号区间中的多份内容之间由分隔符隔开;
所述基于所述正则表达式,将所述文本数据组合成语料数据,包括:识别所述文本数据中的标号区间;
基于标号区间内的分隔符,识别标号区间内的多份语料子数据;
将识别到的多份语料子数据组合成语料数据。
3.根据权利要求2所述的方法,其特征在于,所述正则表达式中:将槽位数据对应的变量参数填充于预设标号区间中,所述变量参数指代多份槽位数据;
所述将识别到的多份语料子数据组合成语料数据,包括:将识别到的多份语料子数据、以及所述多份槽位数据组合成语料数据。
4.根据权利要求3所述的方法,其特征在于,得到所述语料数据的领域标签,包括:基于用户定义的领域类型,得到所述语料数据的领域标签;
得到所述语料数据的意图标签,包括:基于用户定义的意图类型,得到所述语料数据的意图标签;
得到所述语料数据的槽位标签,包括:识别所述文本数据中的槽位标签。
5.根据权利要求4所述的方法,其特征在于,基于所述标签及所述语料数据,生成包括标注结果的数据集合,包括:
针对每份槽位数据,确定该份槽位数据对应的每种表达方式下的语料数据;基于所述每种表达方式下的语料数据对应的领域标签、意图标签和槽位标签,生成该份槽位数据对应的数据子集;得到包括每份槽位数据对应的数据子集的数据集合;
或者,针对每种表达方式,确定该种表达方式下的每份槽位数据对应的语料数据;基于所述每份槽位数据对应的语料数据的领域标签、意图标签和槽位标签,生成该种表达方式对应的数据子集;得到包括每种表达方式对应的数据子集的数据集合。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:判断表达方式的数量是否大于槽位数据的数量;
如果大于,执行所述针对每份槽位数据,确定该份槽位数据对应的每种表达方式下的语料数据;基于所述每种表达方式下的语料数据对应的领域标签、意图标签和槽位标签,生成该份槽位数据对应的数据子集;得到包括每份槽位数据对应的数据子集的数据集合的步骤;
如果不大于,执行所述针对每种表达方式,确定该种表达方式下的每份槽位数据对应的语料数据;基于所述每份槽位数据对应的语料数据的领域标签、意图标签和槽位标签,生成该种表达方式对应的数据子集;得到包括每种表达方式对应的数据子集的数据集合的步骤。
7.一种标注数据获取装置,其特征在于,包括:获取模块,用于获取正则表达式格式的文本数据;
组合模块,用于基于所述正则表达式,将所述文本数据组合成语料数据;
获得模块,用于得到所述语料数据的以下任意一种或多种标签:领域、意图、槽位;
生成模块,用于基于所述标签及所述语料数据,生成包括标注结果的数据集合。
8.根据权利要求7所述的装置,其特征在于,所述正则表达式中:将可相互替换的多份内容填充于同一标号区间中,同一标号区间中的多份内容之间由分隔符隔开;
所述组合模块,具体用于:识别所述文本数据中的标号区间;基于标号区间内的分隔符,识别标号区间内的多份语料子数据;将识别到的多份语料子数据组合成语料数据。
9.根据权利要求8所述的装置,其特征在于,所述正则表达式中:将槽位数据对应的变量参数填充于预设标号区间中,所述变量参数指代多份槽位数据;
所述组合模块,还用于将识别到的多份语料子数据、以及所述多份槽位数据组合成语料数据。
10.根据权利要求9所述的装置,其特征在于,所述获得模块,具体用于:基于用户定义的领域类型,得到所述语料数据的领域标签;
基于用户定义的意图类型,得到所述语料数据的意图标签;
识别所述文本数据中的槽位标签。
11.根据权利要求10所述的装置,其特征在于,所述生成模块包括:第一生成子模块或者第二生成子模块,其中,
所述第一生成子模块,用于针对每份槽位数据,确定该份槽位数据对应的每种表达方式下的语料数据;基于所述每种表达方式下的语料数据对应的领域标签、意图标签和槽位标签,生成该份槽位数据对应的数据子集;得到包括每份槽位数据对应的数据子集的数据集合;
所述第二生成子模块,用于针对每种表达方式,确定该种表达方式下的每份槽位数据对应的语料数据;基于所述每份槽位数据对应的语料数据的领域标签、意图标签和槽位标签,生成该种表达方式对应的数据子集;得到包括每种表达方式对应的数据子集的数据集合。
12.根据权利要求11所述的装置,其特征在于,所述装置还包括:判断模块,用于判断表达方式的数量是否大于槽位数据的数量;如果大于,触发所述第一生成子模块;如果不大于,触发所述第二生成子模块。
13.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任意一项所述的方法。