利索能及
我要发布
收藏
专利号: 2022106396933
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种结合相对位置信息的弱监督文本分类方法,其特征在于:包括以下步骤:S1:输入初始化种子词,以及与初始化种子词同类的为标记文档;

S2:生成伪标签;

S3:基于生成的伪标签训练Transformer文本分类器;

S4:通过文本分类器为未标记的文本分配标签;

S5:通过比较排序方法,更新每一个类别的种子词,返回步骤S2进行迭代训练;

步骤S3中,使用Transformer的Enconder作为文本分类器;

Transformer模型中位置编码计算公式如下:其中,pos是指当前词在句子中的位置,i是指向量中每个值的索引,dmodel是指词向量的维度,在偶数位置使用正弦编码,在奇数位置使用余弦编码;将位置向量与词向量相加得到融合词向量;

Transformer模型中多头自注意力机制计算公式如下:Q K V

headi=Attention(QWi,KWi,VWi)O

MultiHead(Q,K,V)=Concat(head1,head2,...,headh)WQ K V dmodel×dk O dmodel×dmodel其中,Wi 、Wi 、Wi∈R ,W∈R ,i=1,2,...,h,Q、K、V分别代表查询矩Q K V阵、键矩阵和值矩阵,Q、K、V的值同等于融合词向量矩阵;Wi 、Wi和Wi分别表示对Q、K、V进行线性变换的矩阵,将dmodel维的词向量映射到dk维空间;h代表头的数量,每个头能捕获文本O序列中一个子空间信息,执行h次自注意力机制然后进行拼接,通过线性变换矩阵W得到最终的多头自注意力值;

在所述Transformer模型中引入相对位置编码,并且在每一层transformer的self‑attention中都加入相对位置信息。

2.根据权利要求1所述的结合相对位置信息的弱监督文本分类方法,其特征在于:步骤S1中,输入数据包含两部分:

1)一组用户提供的C类初始化种子词S={S1,S2,...SC},其中 表示i类的ki个种子词;

2)一组属于C类的n个未标记文档U={U1,U2,...,Un}。

3.根据权利要求1所述的结合相对位置信息的弱监督文本分类方法,其特征在于:步骤S2中,采用基于统计的方法,为每个文档分配的伪标签为种子词频率最大所在的标签;

文档d被分配到的伪标签l(d)的计算公式如下所示:其中 表示上下文文档d中单词 的术语频率,SC表示类别C的种子词集合。

4.根据权利要求1所述的结合相对位置信息的弱监督文本分类方法,其特征在于:步骤S4中,对于给定的类别Cj和单词w,根据以下三个指标来衡量其重要性:(1)标签指示:使用P(Cj|w)作为标签指示性度量:其中, 指预测为Cj类的文档总数, 指包含单词w的文档;

(2)频率:应用tanh函数对属于标签l的所有文档中种子词s的平均频率进行缩放,得到频率分数:表示被预测为Cj类的文档中单词w的频率;

(3)逆文档频率IDF:

其中n为语料库D中的文档数量,fD,w表示单词w的文档频率;

最后使用几何平均数将所述的三个指标结合起来,得出Cj类单词w的聚合分数:M

R(Cj,w)=(LI×F×IDF(w))基于所述聚合分数,添加分数靠前的单词以扩展Cj类的种子词集合。