1.一种增强愤怒与开心识别的语音情感识别方法,其特征在于:(1)接收用户语音信号,提取语音的声学特征矢量;
(2)将语音信号转换为文本信息,获取语音的文本特征矢量;
(3)将声学特征矢量和文本特征矢量输入语音情感识别模型和文本情感识别模型中,分别得到不同情感的概率值;
(4)对步骤(3)得到的愤怒和开心的情感概率值进行降低和增强,得到最终的情感判断识别结果。
2.根据权利要求1所述的一种增强愤怒与开心识别的语音情感识别方法,其特征在于,所述情感包括愤怒、开心、悲伤和平静。
3.根据权利要求1所述的一种增强愤怒与开心识别的语音情感识别方法,其特征在于,在步骤(1)中,使用如下方法提取语音的声学特征矢量:(1.1)将音频分割为帧,对每个语音句子提取帧级的低层次声学特征;
(1.2)应用全局统计函数,将每个语音句子中的每一组时长不等的基础声学特征转化为等长的静态特征,得到N维度的声学特征矢量;
(1.3)结合注意力机制,对N维度的声学特征矢量进行加权,对加权后的声学特征矢量进行排序,选择前M维度的声学特征矢量,得到语音的声学特征矢量。
4.根据权利要求1所述的一种增强愤怒与开心识别的语音情感识别方法,其特征在于,在步骤(2)中,使用如下方法获取语音的文本特征矢量:(2.1)利用文本数据集对不同种情感分别进行词频与逆词频统计;
(2.2)根据统计结果,每种情感选取前N个词,合并去除重复词后形成去除重复词,合并成基本词汇表;
(2.3)判断语音文本中的每个词在每个样本词汇表中是否出现,出现为1,不出现为0,得到语音文本特征矢量。
5.根据权利要求1所述的一种增强愤怒与开心识别的语音情感识别方法,其特征在于,在步骤(3)中,对声音样本数据集和文本样本数据集所有的样本进行提取语音的声学特征矢量集和语音文本特征矢量集,使用如下卷积神经网络结构分别对声学特征矢量和语音文本特征矢量进行训练,得到所述语音情感识别模型和文本情感识别模型:(a)分类器结构为两个卷积层加上一个全连接层,第一层使用32个卷积核,第二层卷积层采用64个卷积核,两层都采用一维的卷积层,卷积核的窗长度为10,卷积步长为1,补零策略采用same,保留边界处的卷积结果;
(b)第一、第二层的激活函数采用relu函数,训练时设置变量dropoutrate为0.2;
(c)池化层采用最大值池化方式,池化窗口大小设为2,下采样因子设为2,补零策略采用上下左右补0的方法,保留边界处的卷积结果;
(d)最后的全连接层选用softmax激活函数对所有的dropout层的输出进行回归得到各种情感类型的输出概率。
6.根据权利要求2所述的一种增强愤怒与开心识别的语音情感识别方法,其特征在于,在步骤(4)中,得到语音情感的最终判断识别结果的方法如下:(4.1)通过语音情感识别模型对语音信号进行处理,得到愤怒的概率SH、开心的概率SA、悲伤的概率SS和平静的概率SM;
(4.2)通过文本情感识别模型对语音信号进行处理,得到愤怒的概率TH、开心的概率TA、悲伤的概率TS和平静的概率TM;
(4.3)降低步骤(4.1)愤怒的概率SH、开心的概率SA的权重,增强步骤(4.2)中愤怒的概率TH、开心的概率TA的权重:SH′=SH*90% (1)
SA′=SA*90% (2)
TH′=TH*110% (3)
TA′=TA*110% (4)
(4.4)最终得到情感识别结果:
Ci=MAX{SH′+TH′,SA′+TA′,SS+TS,SM+TM}其中,SH′+TH′,SA′+TA′,SS+TS,SM+TM分别表示加权后愤怒、开心、悲伤、平静的概率值,Max{}表示取最大值。
7.一种增强愤怒与开心识别的语音情感识别系统,其特征在于,包括如下模块:声学特征矢量模块,用于接收用户语音信号,提取语音的声学特征矢量;
文本特征矢量模块,用于将语音信号转换为文本信息,获取语音的文本特征矢量;
情感概率计算模块,将声学特征矢量和文本特征矢量分别输入到语音情情感识别模型和文本情感识别模型中,分别得到不同情感的概率值;
情感判断识别模块,对情感概率计算模块计算得到的愤怒和开心的情感概率值进行降低和增强,得到最终的情感判断识别结果。
8.根据权利要求7所述的一种增强愤怒与开心识别的语音情感识别系统,其特征在于,声学特征矢量模块功能如下:(1.1)将音频分割为帧,对每个语音句子提取帧级的低层次声学特征;
(1.2)应用全局统计函数,将每个语音句子中的每一组时长不等的基础声学特征转化为等长的静态特征,得到多维度的声学特征矢量;
(1.3)结合注意力机制,对N维度的声学特征矢量进行加权,对加权后的声学特征矢量进行排序,选择前M维度的声学特征矢量,得到语音的声学特征矢量。
9.根据权利要求7所述的一种增强愤怒与开心识别的语音情感识别系统,其特征在于,文本特征矢量模块功能如下:(2.1)利用文本数据集对不同种情感分别进行词频与逆词频统计;
(2.2)根据统计结果,每种情感选取前N个词,合并去除重复词后形成去除重复词,合并成基本词汇表;
(2.3)判断语音文本中的每个词在每个样本词汇表中是否出现,出现为1,不出现为0,得到语音文本特征矢量。
10.根据权利要求7所述的一种增强愤怒与开心识别的语音情感识别系统,其特征在于,情感判断识别模块功能如下:(4.1)通过语音情感识别模型对语音信号进行处理,得到愤怒的概率SH、开心的概率SA、悲伤的概率SS和平静的概率SM;
(4.2)通过文本情感识别模型对语音信号进行处理,得到愤怒的概率TH、开心的概率TA、悲伤的概率TS和平静的概率TM;
(4.3)降低(4.1)中愤怒的概率SH、开心的概率SA的权重,增强(4.2)中愤怒的概率TH、开心的概率TA的权重:SH′=SH*90% (1)
SA′=SA*90% (2)
TH′=TH*110% (3)
TA′=TA*110% (4)
(4.4)最终得到情感识别结果:
Ci=MAX{SH′+TH′,SA′+TA′,SS+TS,SM+TM}其中,SH′+TH′,SA′+TA′,SS+TS,SM+TM分别表示加权后愤怒、开心、悲伤、平静的概率值,Max{}表示取最大值。