1.一种基于语料库的儿童语言语气词汇识别系统,其特征在于,包括:语料库建立模块:通过采集儿童文学作品、儿童教育材料和儿童电视节目中的数据,并将采集的数据统一转化为文本数据,并对文本数据进行清洗,建立儿童语言的语料库;
关注点定义模块:定义语料库中的关注点,包括语气、情感和语义,并对语句的语气和情感进行分类;
关注点标注模块:用于根据关注点中语气和情感的分类,通过训练儿童语言的儿童语气分类模型和情感分类模型,对语料库中儿童语句添加不同的语气标签和情感标签;
模型构建模块:对语料库中不同情感分类中的儿童语句的语气词汇进行标注,通过进行语气词汇标注后的不同情感分类的儿童语句,训练不同情感分类中的语气词汇识别模型;
语气词汇识别模块:将采集到的儿童语句进行语义重构,通过关注点标注模块的情感分类模型对语句的情感进行识别,将语句输入到对应情感分类中的语气词汇识别模型进行语气词汇识别,并提取对应的语气词汇信息,添加到关注点标注模块。
2.根据权利要求1所述的一种基于语料库的儿童语言语气词汇识别系统,其特征在于,语气分类包括:陈述语气、肯定语气、否定语气、疑问语气和祈使语气;
情感分类包括:积极情感分类、消极情感分类和中性情感分类。
3.根据权利要求1所述的一种基于语料库的儿童语言语气词汇识别系统,其特征在于,关注点标注模块,包括:语气标注单元:用于建立不同语气的词汇列表,通过机器学习训练儿童语气分类模型,通过儿童语气分类模型识别语料库中儿童语言的语气分类;
情感标注单元:用于通过提取儿童语句的特征向量,训练情感分类模型,对儿童语句进行情感分类。
4.根据权利要求3所述的一种基于语料库的儿童语言语气词汇识别系统,其特征在于,所述语气标注单元建立不同语气的词汇列表,通过机器学习训练儿童语气分类模型,通过儿童语气分类模型识别语料库中儿童语言的语气分类,包括以下步骤:通过NLP自然语言处理技术,对语料库中的语句进行依存句法分析,识别不同种类的儿童语气词汇的词语,分别建立陈述语气、肯定语气、否定语气、疑问语气和祈使语气的语气词汇列表;
对语料库中的语句进行语气标注,为每条语句分配一个或多个语气标签;
对于每个语句,统计不同语气标签的语句中,语气词汇列表中不同语气词汇的出现频率,将对应语气标签的语句中不同语气词汇的出现频率作为语气特征;
通过支持向量机,建立儿童语气分类模型,通过语气词汇列表和不同语气标签语句的语气特征训练儿童语气分类模型;
通过儿童语气分类模型识别语料库中儿童语言的语气分类,并标注对语句进行语气标注。
5.根据权利要求3所述的一种基于语料库的儿童语言语气词汇识别系统,其特征在于,情感标注单元通过提取儿童语句的特征向量,训练情感分类模型,对儿童语句进行情感分类,包括以下步骤:通过获取的经过情感标注的儿童语句,建立数据集;
根据数据集中儿童语句的情感词特征、关键词特征和上下文特征,对儿童语句进行情感词特征向量、关键词特征向量和上下文特征向量的提取,将情感特征向量、关键词特征向量和上下文特征向量进行合并,形成儿童语句的整体特征向量;
对整体特征向量与语句对应的情感标注进行关联;
通过与对应的情感标注关联后的特征向量训练情感分类模型;
通过情感分类模型对儿童语句进行分析。
6.根据权利要求5所述的一种基于语料库的儿童语言语气词汇识别系统,其特征在于,根据数据集中儿童语句的情感词特征、关键词特征和上下文特征,对儿童语句进行情感词特征向量、关键词特征向量和上下文特征向量的提取,包括以下步骤:根据数据集中儿童语句的情感词特征、关键词特征和上下文特征,分别对儿童语句进行情感词特征向量、关键词特征向量和上下文特征向量的提取;
其中,情感词特征提取,包括以下步骤:
通过AFINN情感词典,提取儿童语句中的情感词;
根据匹配到的情感词汇及其情感极性,计算儿童语句的情感值;
将提取的情感词和对应儿童语句的情感值作为情感词特征向量;
关键词特征提取,包括以下步骤:
通过TF‑IDF关键词识别算法,从儿童语句中提取出关键词;
根据关键词在儿童语句中的出现频率,计算关键词的权重;
将提取的关键词和对应权重作为关键词特征向量;
上下文特征提取,包括以下步骤:
获取儿童语句的上下文信息,计算上下文信息中的语句的情感值;
统计上下文信息中的语句的情感值,并计算上下文信息中的儿童语句的整体情感值;
将上下文信息中的儿童语句的整体情感值上下文特征向量。
7.根据权利要求6所述的一种基于语料库的儿童语言语气词汇识别系统,其特征在于,统计上下文信息中的语句的情感值,并计算上下文信息中的儿童语句的整体情感值,包括以下步骤:从上文信息或下文信息中距离儿童语句最近的语句开始编号,到上文信息或下文信息中距离对应儿童语句第五句语句结束,编号为:{1,2,3,4,5};
统计上下文信息中的语句的情感值;
通过上文信息中语句的情感值计算上文信息中儿童语句的整体情感值,通过下文信息中语句的情感值计算下文信息中儿童语句的整体情感值,通过以下公式进行:其中,E为儿童语句的整体情感值,A1为上文信息或下文信息中编号为1的语句的情感值,A2为上文信息或下文信息中编号为2的语句的情感值,A3为上文信息或下文信息中编号为3的语句的情感值,A4为上文信息或下文信息中编号为4的语句的情感值,A5为上文信息或下文信息中编号为5的语句的情感值。
8.根据权利要求1所述的一种基于语料库的儿童语言语气词汇识别系统,其特征在于,所述模型构建模块对语料库中不同情感分类中的儿童语句的语气词汇进行标注,通过进行语气词汇标注后的不同情感分类的儿童语句,训练不同情感分类中的语气词汇识别模型,包括以下步骤:对语料库中不同情感分类中的儿童语句的语气词汇进行标注;
识别不同情感分类中,标注的语气词汇,在对应儿童语句中的词性;
统计不同情感分类中,标注的语气词汇识别为不同词性的比重数据;
通过进行语气词汇标注后的不同情感分类的儿童语句,以及语气词汇识别为不同词性的比重数据,训练不同情感分类中的语气词汇识别模型。
9.根据权利要求8所述的一种基于语料库的儿童语言语气词汇识别系统,其特征在于,语气词汇识别模块,包括:词性标注单元:用于通过依存句法分析识别儿童语句中的词汇的词性,并对不同的词汇的词性进行标注;
语义重构单元:用于根据语句对应的语气标签和情感标签,对语句中不同词性的词汇进行语义重构;
语气词汇识别单元:通过关注点标注模块的情感分类模型对语句的情感进行识别,将儿童语句和语句中的词汇的词性信息,输入到对应情感分类中的语气词汇识别模型进行语气词汇识别;
语气词汇提取单元:提取对应的语气词汇信息,添加到关注点标注模块。
10.一种基于语料库的儿童语言语气词汇识别方法,其特征在于,包括以下步骤:通过采集儿童文学作品、儿童教育材料和儿童电视节目中的数据,并将采集的数据统一转化为文本数据,并对文本数据进行清洗,建立儿童语言的语料库;
定义语料库中的关注点,包括语气、情感和语义,并对语句的语气和情感进行分类;
设置关注点标注模块,所述关注点标注模块用于根据关注点中语气和情感的分类,并通过训练儿童语言的儿童语气分类模型和情感分类模型,对语料库中儿童语句添加不同的语气标签和情感标签;
对语料库中不同情感分类中的儿童语句的语气词汇进行标注,通过进行语气词汇标注后的不同情感分类的儿童语句,训练不同情感分类中的语气词汇识别模型;
将采集到的儿童语句进行语义重构,通过关注点标注模块的情感分类模型对语句的情感进行识别,将语句输入到对应情感分类中的语气词汇识别模型进行语气词汇识别,并提取对应的语气词汇信息,添加到关注点标注模块。