买专利、卖专利、专利购买、专利交易、专利出售、高企申报-基于Transformer-CRF的藏文分词方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

基于Transformer-CRF的藏文分词方法

￥20200

专利号： 2021115202896

申请人：电子科技大学

专利类型：发明专利

专利状态：无效专利

更新日期：2025-12-17

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于Transformer‑CRF的藏文分词方法，其特征在于，该方法包括如下步骤：步骤S1)：获取藏文语料，对于所述藏文语料中的每个藏文句子，已经标注了各音节的标签，所述标签为B、M、E或S，其中B表示起始字标签，M表示中间字标签，E表示结束字标签，S表示单个字标签，藏文句子中的一个音节相当于汉语中的一个字；

步骤S2)：将所述藏文语料进行预处理，得到预处理后的语料库；

步骤S3)：对所述预处理后的语料库中的每个句子，通过音节扩展层对其中的每个音节进行音节扩展，具体包括：对于所述预处理后的语料库中的每一个藏文句子X＝[x1,x2,...,xi,...,xn]，在其句首和句尾分别添加两个特殊音节和作为起始字符和结束字符，表示为X＝[bos,bos,x1,x2,...,xi,...,xn,eos,eos]，以藏文句子X中当前音节为中心向左向右各扩展两个音节单元，设置窗口大小为5，使用窗口内音节的unigram和bigram相结合，作为当前音节的输入，藏文句子X经过音节扩展之后的特征表示为X′＝[x′1,x′2,...,x′i,...,x′n]，其中x′i表示藏文句子X中第i个音节xi经过音节扩展之后的音节特征，i＝1,2,…,n；n为藏文句子X的长度。

得到每个音节经过音节扩展之后的音节特征，由此得到音节扩展后的语料库，将所述音节扩展后的语料库中的所有句子按预设比例划分得到训练集、验证集及测试集；

步骤S4)：构建基于Transformer‑CRF的藏文分词模型，所述基于Transformer‑CRF的藏文分词模型依次包括Transformer‑Encoder层和条件随机场(CRF)层，Transformer‑Encoder层将每个扩展后的音节分别映射成隐藏层；

步骤S5)：由于Transformer‑Encoder层无法学到一个藏文句子中各音节标签之间的关系，利用所述Transformer‑CRF的藏文分词模型中的条件随机场层对Transformer‑Encoder层得到的隐藏层进行约束修正，所述约束修正采用所述训练集训练基于Transformer‑CRF的藏文分词模型实现，训练的最大轮数设置为N′轮；并使用所述验证集对基于Transformer‑CRF的藏文分词模型的超参数进行调整，得到调参后的Transformer‑CRF的藏文分词模型；

步骤S6)：将所述测试集中的藏文句子输入到Transformer‑CRF的藏文分词模型中，然后计算Transformer‑CRF的藏文分词模型藏文分词精准率P、召回率r、综合指标F1的值；

2.根据权利要求1所述的基于Transformer‑CRF的藏文分词方法，其特征在于，所述步骤S2)中的预处理操作包括：首先根据所述藏文语料的文本数据来源进行包括编码转换在内的基本文本处理；其次对进行基本文本处理后的所述藏文语料检测完整性，具体为：计算所述藏文语料中的每一个音节加上其标签的长度是否为2，如果是则完整的，如果不是，则当前音节是不完整的。

3.根据权利要求2所述的基于Transformer‑CRF的藏文分词方法，其特征在于，所述步骤S4)中所述Transformer‑Encoder层依次包括向量嵌入层、位置嵌入层、多头自注意力机制层、第一残差连接层和第一层正则化、前馈神经网络层、第二残差连层和第二层正则化；

其中，所述向量嵌入层中的操作具体为：将X′＝[x′1,x′2,...,x′i,...,x′n]中的每一个音节特征x′i编码为音节向量wi，由此得到藏文句子X编码之后的向量表示W＝[w1,w2,...,wi,...,wn]，wi表示藏文句子X中第i个音节xi的音节向量；

位置嵌入层与所述向量嵌入层相连，是为了标记各个音节之间的时序或位置关系，藏文句子X中第i个音节的音节向量wi经过所述位置嵌入层后得到的位置向量表示为其中其中指第i个音节的位置向量中第m个元素，d指音节向量wi和位置向

量Pi的维度，m是音节向量wi和位置向量Pi维度的序号，m＝1,2,…,d，向量表示W＝[w1,w2,...,wi,...,wn]中的每一个音节向量分别与对应的位置向量相加后得到矩阵W′＝[w′1,w′2,...,w′i,...,w′n]；

所述多头自注意力机制层与所述位置嵌入层相连，所述多头自注意力机制层中包含六个自注意力机制，对于任意第h个自注意力机制，其对应的矩阵为将矩阵W′＝[w′1,w′2,...,w′i,...,w′n]乘以分别得到

其中通过随机初始化后作为基于

Transformer‑CRF的藏文分词模型的参数进行训练得到，任意第h个自注意力机制输出矩阵为：使用concat()函数将六个自注意力机制分别得到的输出矩阵拼接起来，得到所述多头自注意力机制层的输出矩阵Attention_total(W′)：Attention_total(W′)＝concat(Attention1(W′),Attention2(W′),...,Attention6(W′))；

所述第一残差连接层与所述多头自注意力机制层相连，公式为：

T＝W′+Attention_total(W′)

其中T为经过第一残差连接层的输出矩阵，W′为经过位置嵌入层之后得到的矩阵，Attention_total(W′)为W′经过了多头自注意力机制层后得到的输出矩阵；

然后矩阵T经过第一层正则化后输出output1，output1为一个n×d的矩阵，并且

output1第i行第j列的元素为T′ij，第一层正则化公式为：

其中，Tij表示矩阵T第i行第j列的元素，i＝1,2,…,n，j＝1,2,…,d，μj为矩阵T第j列的均值，为矩阵T第j列的方差，ε为一个预设参数，防止除数为0，其取值范围为[0.01,0.1]；

第一层正则化的输出会传递到所述前馈神经网络层中，所述前馈神经网络层由两个全连接层组成，第一个全连接层的激活函数为Relu，其权重和偏置分别为W1、b1；第二个全连接层不使用激活函数，其权重和偏置分别为W2、b2；所述前馈神经网络层的输出为：FFN(output1)＝max(0,output1×W1+b1)W2+b2

其中，W1、W2、b1和b2通过随机初始化并作为基于Transformer‑CRF的藏文分词模型的参数进行训练得到；

第二残差连接层与所述前馈神经网络层相连，公式为：

M＝output1+FFN(output1)

其中M为第二残差连接层的输出矩阵，output1为第一层正则化得到的矩阵，FFN(output1)为前馈神经网络层得到的矩阵；

随后矩阵M经过第二层正则化后输出output2，output2为一个n×d的矩阵，并且

output2第i行第j列的元素为M′ij，第二层正则化公式为：

其中，μ′j为矩阵M第j列的均值，为矩阵M第j列的方差，Mij表示矩阵M第i行第j列的元素，i＝1,2,…,n，j＝1,2,…,d，ε为一个预设参数，防止除数为0，其取值范围为[0.01,

0.1]；

所述Transformer‑Encoder层将多头自注意力机制层、第一残差连接层和第一层正则化、前馈神经网络层、第二残差连接层和第二层正则化作为一个大层，并将这个大层堆叠了四次，加深对特征的提取，从而得到Transformer‑Encoder层的输出结果。

4.根据权利要求3所述的基于Transformer‑CRF的藏文分词方法，其特征在于，所述步骤S6)中得到藏文分词结果的操作为：将所述测试集中藏文句子输入到Transformer‑CRF的藏文分词模型中，得到Transformer‑Encoder层的输出结果，将Transformer‑Encoder层的输出结果经过线性变换后输入条件随机场层，通过条件随机场得到可能性最大的标签序列，根据标签E和S将藏文句子进行划分，分为一个个词，具体地：所述条件随机场层有两类特征函数，一类是针对观测序列与状态的对应关系，一类是针对状态间关系；在基于Transformer‑CRF的藏文分词模型中，观测序列与状态的对应关系由Transformer‑Encoder层的输出结果替代记为状态特征矩阵E，矩阵E的大小为n×4，藏文句子X中每个音节xi对应的标签得分分布为ei，ei＝E[i]，E[i]表示矩阵E的第i行数据，ei是一个4维向量，音节xi标签为yi的得分表示为ei[yi]，yi∈{B,M,E,S}，i＝1,2,…,n；状态间关系由转移特征矩阵R表示，矩阵R是通过随机初始化并作为基于Transformer‑CRF的藏文分词模型的参数进行训练得到，矩阵R的大小为4×4，矩阵R的每一行和每一列均包括B,M,E,S四种标签状态，通过转移特征矩阵R得到藏文句子X中上一个音节xi‑1的标签为yi‑1且当前音节xi标签为yi的转移得分，即对应转移特征矩阵R中yi‑1的标签类型所在行、yi的标签类型所在列对应的元素值R[yi‑1,yi]；

对于一个藏文句子X＝[x1,x2,...,xi,...,xn]，由于句子长度为n，标签个数为m，那么共n n有m个标签序列结果，即m个Y＝(y1,y2,...,yi,...,yn)，计算出每个可能的标签序列的得分score(Y)，然后利用softmax进行归一化求出任一标签序列的概率选择概率最大的作为标注结果，其中表示所有可能标签序列对应的得分指数和，其中 m＝4。

5.根据权利要求4所述的基于Transformer‑CRF的藏文分词方法，其特征在于，所述基于Transformer‑CRF的藏文分词模型的损失函数为loss＝‑log p(Y|X)，其中训练的最大轮数N′＝100；所述超参数包括一次训练

的样本数。

6.根据权利要求5所述的基于Transformer‑CRF的藏文分词方法，其特征在于，所述n≤

80，d＝512，ε＝0.01。

7.根据权利要求6所述的基于Transformer‑CRF的藏文分词方法，其特征在于，所述预设比例为3：1：1。

8.根据权利要求7所述的基于Transformer‑CRF的藏文分词方法，其特征在于，藏文分词精准率P、召回率r、综合指标F1计算公式为：定义TP为标准答案为正，所述调参后的Transformer‑CRF的藏文分词模型分类也为正的样例数量；FN为标准答案为正，所述调参后的Transformer‑CRF的藏文分词模型分类却为负的样例数量；FP为标准答案为负，所述调参后的Transformer‑CRF的藏文分词模型分类却为正的样例数量；TN为标准答案为负，所述调参后的Transformer‑CRF的藏文分词模型分类也为负的样例数量；则