利索能及
我要发布
收藏
专利号: 2019109309564
申请人: 大众问问(北京)信息科技有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种标注数据获取方法,其特征在于,包括:获取正则表达式格式的文本数据;

基于所述正则表达式,将所述文本数据组合成语料数据,并得到所述语料数据的以下任意一种或多种标签:领域、意图、槽位;

基于所述标签及所述语料数据,生成包括标注结果的数据集合。

2.根据权利要求1所述的方法,其特征在于,所述正则表达式中:将可相互替换的多份内容填充于同一标号区间中,同一标号区间中的多份内容之间由分隔符隔开;

所述基于所述正则表达式,将所述文本数据组合成语料数据,包括:识别所述文本数据中的标号区间;

基于标号区间内的分隔符,识别标号区间内的多份语料子数据;

将识别到的多份语料子数据组合成语料数据。

3.根据权利要求2所述的方法,其特征在于,所述正则表达式中:将槽位数据对应的变量参数填充于预设标号区间中,所述变量参数指代多份槽位数据;

所述将识别到的多份语料子数据组合成语料数据,包括:将识别到的多份语料子数据、以及所述多份槽位数据组合成语料数据。

4.根据权利要求3所述的方法,其特征在于,得到所述语料数据的领域标签,包括:基于用户定义的领域类型,得到所述语料数据的领域标签;

得到所述语料数据的意图标签,包括:基于用户定义的意图类型,得到所述语料数据的意图标签;

得到所述语料数据的槽位标签,包括:识别所述文本数据中的槽位标签。

5.根据权利要求4所述的方法,其特征在于,基于所述标签及所述语料数据,生成包括标注结果的数据集合,包括:

针对每份槽位数据,确定该份槽位数据对应的每种表达方式下的语料数据;基于所述每种表达方式下的语料数据对应的领域标签、意图标签和槽位标签,生成该份槽位数据对应的数据子集;得到包括每份槽位数据对应的数据子集的数据集合;

或者,针对每种表达方式,确定该种表达方式下的每份槽位数据对应的语料数据;基于所述每份槽位数据对应的语料数据的领域标签、意图标签和槽位标签,生成该种表达方式对应的数据子集;得到包括每种表达方式对应的数据子集的数据集合。

6.根据权利要求5所述的方法,其特征在于,所述方法还包括:判断表达方式的数量是否大于槽位数据的数量;

如果大于,执行所述针对每份槽位数据,确定该份槽位数据对应的每种表达方式下的语料数据;基于所述每种表达方式下的语料数据对应的领域标签、意图标签和槽位标签,生成该份槽位数据对应的数据子集;得到包括每份槽位数据对应的数据子集的数据集合的步骤;

如果不大于,执行所述针对每种表达方式,确定该种表达方式下的每份槽位数据对应的语料数据;基于所述每份槽位数据对应的语料数据的领域标签、意图标签和槽位标签,生成该种表达方式对应的数据子集;得到包括每种表达方式对应的数据子集的数据集合的步骤。

7.一种标注数据获取装置,其特征在于,包括:获取模块,用于获取正则表达式格式的文本数据;

组合模块,用于基于所述正则表达式,将所述文本数据组合成语料数据;

获得模块,用于得到所述语料数据的以下任意一种或多种标签:领域、意图、槽位;

生成模块,用于基于所述标签及所述语料数据,生成包括标注结果的数据集合。

8.根据权利要求7所述的装置,其特征在于,所述正则表达式中:将可相互替换的多份内容填充于同一标号区间中,同一标号区间中的多份内容之间由分隔符隔开;

所述组合模块,具体用于:识别所述文本数据中的标号区间;基于标号区间内的分隔符,识别标号区间内的多份语料子数据;将识别到的多份语料子数据组合成语料数据。

9.根据权利要求8所述的装置,其特征在于,所述正则表达式中:将槽位数据对应的变量参数填充于预设标号区间中,所述变量参数指代多份槽位数据;

所述组合模块,还用于将识别到的多份语料子数据、以及所述多份槽位数据组合成语料数据。

10.根据权利要求9所述的装置,其特征在于,所述获得模块,具体用于:基于用户定义的领域类型,得到所述语料数据的领域标签;

基于用户定义的意图类型,得到所述语料数据的意图标签;

识别所述文本数据中的槽位标签。

11.根据权利要求10所述的装置,其特征在于,所述生成模块包括:第一生成子模块或者第二生成子模块,其中,

所述第一生成子模块,用于针对每份槽位数据,确定该份槽位数据对应的每种表达方式下的语料数据;基于所述每种表达方式下的语料数据对应的领域标签、意图标签和槽位标签,生成该份槽位数据对应的数据子集;得到包括每份槽位数据对应的数据子集的数据集合;

所述第二生成子模块,用于针对每种表达方式,确定该种表达方式下的每份槽位数据对应的语料数据;基于所述每份槽位数据对应的语料数据的领域标签、意图标签和槽位标签,生成该种表达方式对应的数据子集;得到包括每种表达方式对应的数据子集的数据集合。

12.根据权利要求11所述的装置,其特征在于,所述装置还包括:判断模块,用于判断表达方式的数量是否大于槽位数据的数量;如果大于,触发所述第一生成子模块;如果不大于,触发所述第二生成子模块。

13.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任意一项所述的方法。