1.一种面向中国移动智能客服的对话场景分类方法,其特征在于:该场景分类方法包括:
S1:获取中国移动智能客服场景对话相关自然语言的训练文本;
S2:采用MapReduce方法计算量化数据的笛卡尔积进行实体的共指消歧;
S3:采用词向量表征方式融合多语境描述进行训练文本稀疏表示;
S4:采用尺度相关池化方案与训练级联卷积神经网络模型进行对话场景分类。
2.根据权利要求1所述的一种面向中国移动智能客服的对话场景分类方法,其特征在于:在所述步骤S1中,所述的训练文本的获取,包括:采用网络爬虫和专家设计相互补充的方式,获取事实型、列表型、定义型、关系型、观点型的问题/答案文本训练数据。
3.根据权利要求1所述的一种面向中国移动智能客服的对话场景分类方法,其特征在于:在所述步骤S2中,采用MapReduce方法计算量化数据的笛卡尔积,依据相似值计算公式计算每个实体对的相似度;其中,对于n个数据记录,i和j都为0到n之间的自然数,ei和ej表示n个实体中的某一个,w表示权重;通过自适应阈值的优化选取相似实体进行融合,完成实体的共指消歧。
4.根据权利要求1所述的一种面向中国移动智能客服的对话场景分类方法,其特征在于:在所述步骤S3中,通过HanLP与Stanford parser中的条件随机场(conditional random field algorithm)句法分析器与最大熵依存句法分析器将训练文本划分为词或短语,并获取语境量化描述;采用word2vec将其融合成词向量,并与获取的量化描述融合生成新的词向量;借助无监督最大释然学习实现训练文本稀疏表示。
5.根据权利要求4所述的一种面向中国移动智能客服的对话场景分类方法,其特征在于:所述的无监督最大释然学习实现数据稀疏表示,通过在深度置信神经网络的隐藏层神经元中引入稀疏限制和正则项,推导相应的损失函数和惩罚函数,构建稀疏边缘降噪自动编码器;将融合词序、词序、依存关系语境特征的词向量提交给该编码器,借助损失函数的更新完成深度置信神经网络的预训练,微调神经网络的权值、偏置、稀疏限制和正则限制项参数,完成训练文本的稀疏表示。
6.根据权利要求1所述的一种面向中国移动智能客服的对话场景分类方法,其特征在于:在所述步骤S4中,所述卷积神经网络模型的构建,包括:构造条件函数来优化切换多学习机制;对所述稀疏表示的训练数据进行无监督学习预训练进而获取其训练权值;采用尺度相关池化方案与训练级联卷积神经网络模型对于给定对话训练数据集;学习一个线性增强分类器,聚合一组弱学习机制输出分类得分,进行对话场景分类。
7.根据权利要求6所述的一种面向中国移动智能客服的对话场景分类方法,其特征在于:所述卷积神经网络模型通过训练文本稀疏表示进行重复迭代训练更新权重至误差在预设的误差范围之内。