1.一种基于CBOW模型和依存句法关系的词向量表示方法,该方法包含如下步骤:步骤1.语料预处理
针对原始语料进行裁剪分句得到语料集合C1;针对语料集合C1,获得每行语料的分词及词性标注,构成语料集合C2;语料集合C2为:C2={J1,J2,Ji…Jn}
Ji为语料集合C2中一行带有分词及词性标注的分词序列,1<=i<=n,n为语料集合C2的行数;
针对语料集合C1,获得每行语料的依存句法关系,构成语料集合C3;
步骤2.词向量表示学习
步骤2.1遍历语料集合
根据步骤1的结果,将语料集合C2作为CBOW模型的输入;遍历语料集合C2中的每个分词序列Ji;
步骤2.2遍历分词序列Ji中的分词,具体步骤如下:a)将分词序列Ji中的当前分词作为中心词;
b)通过判断中心词的词性,构造上下文得到概率模型;
判断中心词的词性,若中心词的词性是动词或名词或副词,则通过语料集合C3获得中心词的依存句法关系,将依存句法关系中构成强依存关系的词并入到中心词的上下文中,将具有强依存关系的词构成句法上下文,修改CBOW模型中的概率模型为:P=(Wtarget|Wdobj+Wnsub+...+Wamod)其中P是CBOW模型中的概率模型,Wtarget为中心词,Wdobj,Wnsub,Wamod是与Wtarget构成强依存关系的词;
若中心词不为上述三种词性,则使用随机窗口构造中心词的上下文,使用CBOW模型中原始的概率模型:P=(Wtarget|Context(Wtarget))其中Context(Wtarget)是用随机窗口对Wtarget构造的上下文;
c)针对步骤b)中得到的概率模型,使用随机梯度下降和反向传播,对训练的参数以及词向量进行更新,设置下一个分词为当前分词并返回到步骤a),直到当前分词序列Ji遍历结束;
步骤2.3语料集合C2遍历结束后得到词向量。
2.根据权利要求1所述的一种基于CBOW模型和依存句法关系的词向量表示方法,其特征在于:所述的强依存关系判断如下:若中心词是动词,则强依存关系为主谓关系或动宾关系或连谓关系或状语关系;
若中心词是名词,则强依存关系为主谓关系或动宾关系或同位关系或限定关系或定中关系或数量关系;
若中心词是副词,则强依存关系为状语关系或定中关系。
3.根据权利要求2所述的一种基于CBOW模型和依存句法关系的词向量表示方法,其特征在于:考虑到副词的强依存关系较少,将副词构成强依存关系的依存词再次进行强依存关系的选定,把再次选定的依存词一起并入到中心词的上下文中。