利索能及
我要发布
收藏
专利号: 2019112503697
申请人: 江南大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-04-30
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.基于多尺度注意力卷积编码网络的视频弹幕情感分析方法,其特征在于,步骤如下:步骤1、从互联网上的视频网站收集带有弹幕的视频文件,利用CRNN模型提取出视频中的弹幕样本,将视频的每一帧的视频图片转化为RGB三通道的像素矩阵,并输入到CNN模型中提取特征:F=CNN(X)    (1)

其中F为提取出的中间特征图,X为图片的输入像素矩阵;

特征图F经过RNN模型的解码翻译出弹幕样本:S=RNN(F)    (2)

将样本中的目标词和情感标记出来作为数据集,并将其划分为训练集和测试集;对数据集进行样本预处理,即词嵌入向量操作;

使用GloVe的词嵌入向量方法:根据已有的语料库,构建一个由Xij个元素构成的共现矩阵X,将单词i和其上下文单词j在固定窗口大小的上下中共同出现的次数与权重的乘积定义为Xij;权重是由GloVe自身的衰减函数来计算:wd=1/d    (3)

其中d为上下文单词之间的距离;

GloVe词嵌入向量的训练损失函数为:其中, 和 为最终求解词向量,f(Xij)为权重函数;

进一步的,f(Xij)定义为:

其中,α取值为0.75,xmax取值为100;

步骤2、构建HACNN模型,设置HACNN模型的各项超参数数值;将步骤1中GloVe处理之后得到的句子样本和目标词向量输入到HACNN模型,进行第一重注意力机制处理;对句子样本和目标词向量同时做多头自注意力,初步提炼出向量中最相关的信息部分,完成粗编码过程;k={k1,k2,...,kn}和q={q1,q2,...,qm}分别为注意力的一组键值序列和查询序列,自注意力公式为:Attention(k,q)=softmax(fs(k,q))k    (6)fs(ki,qj)=tanh([ki;qj]·Watt)    (7)则多头注意力公式可定义为:

h h

o=Attention(k,q)    (9)其中,Watt和Wmh为模型可训练的变量,“;”代表向量直接拼接, 为第h头的注意力输出,且h∈[1,nhead];样本进行自我自注意力,即k与q的值相等;目标词进行交互自注意力,即k与q的值不等;

进一步得到句子和目标词的向量表示:

c=MHA(context,context)    (10)t=MHA(context,target)    (11)其中,c为句子的向量表示,t为目标词的向量表示;

步骤3、将得到的句子和目标词的初步向量表示再输入进多通道卷积转换模块MCCT中,MCCT能将输入的特征通道维度升高,能从不同的角度学习到输入的特征;再利用第二重注意力——通道间的注意力,降低CNN的通道维度,去除掉多个通道中冗余的部分,提取多通道中收集的不同特征;MCCT模块的计算方法如下:fr=ReLU(L)    (12)其中,L为:

L=Wcx    (13)

其中,Wc为可训练的权重,x为MCCT模块的输入;则通道注意力Attentionl用以下公式表示:Attentionl=Sigmoid(Wrfr)    (14)其中,Wr为可训练的权重;

用卷积网络将输入展开到不同通道进行学习:Tc=Conv1d(input)    (15)去除冗余通道信息:

MCCT(c)=Attentionl(Tc)    (16)其中Tc为卷积收集到的信息,通道数channel和隐藏层reduction为超参数;则最终的特c征表示h表示为:

c

h=Conv1d(MCCT(c))    (17)t

同样得到h的表示:

t

h=Conv1d(MCCT(t))    (18)得到的样本表示特征序列为 目标词序列为步骤4、第三重注意力为样本与目标词之间的注意力;在网络在多通道进一步提取了样c t本句子与目标词的高维信息后,再一次提取句子中与目标词最相关的部分,即在h 与h之间再做一次注意力;将句子向量与目标词向量做乘积作为注意力权重,进而将此注意力权重与目标词向量做点积得到句子中与目标词相关信息的特征向量表示;此注意力过程使用了公式(6)中的自注意力公式:tc c t

h =MHA(h ,h)    (19)tc

其中h 为与目标词最相关的句子表示;

c t tc

步骤5、将得到的三个特征表示h 、h 与h 进行平均池化后拼接;将拼接之后的向量长度H输入到最后的分类器分类,平均池化操作为:其中,H是向量长度;

c t tc

则h、h与h 进行平均池化后得到 与将三个池化后的特征表示拼接得H:

其中,“;”为拼接操作;

步骤6、将最后得到的H向量特征表示,输入到softmax分类器中进行最后的分类,得到的一个三维向量y为最后的预测分布,每个维度代表一个分类类别,分别为积极的、消极的和中立的;使用argmax函数找到数值最大的维度标号,即模型预测的类别P,此过程的公式为:P=argmax(y)    (24)其中, 与 都是反向传播过程中可训练学习到的变量;C为分类的种类,得到的y为最后的预测分布;

使用了标签平滑的交叉熵函数LSR代替了传统的交叉熵函数作为整个网络的损失函数来获取更好的训练效果;训练样本x标签的真实分布表示为q(k|x),LSR将此分布重写为:q(k|x)=(1‑∈)q(k|x)+∈u(k)    (25)其中,u(k)为先验分布,∈为一个取[0,1]的平滑系数;

u(k)服从一个简单的均匀分布:

u(k)=1/C    (26)

把标签的真实分布q(k|x)与固定的分布u(k)按照1‑∈和∈的权重混合在一起,构成一个新的分布;即对标签分布中加入噪声,k值有∈的概率来自于分布u(k);LSR交叉熵函数计算了先验分布u(k)与网络的预测分布pθ之间的KL散度,LSR定义为:再使用L2正则化对损失函数进行约束,则损失函数可定义为:c c

其中,y 为网络的预测C类的情感分布, 为y的平均值,λ为L2正则化系数,θ为设定的超参数。