1.一种电商商品属性智能抽取方法,其特征在于包括以下步骤:
101、获取原始文本信息,设置标签Query信息;
102、对原始文本信息进行编码得到文本编码信息,对标签Query信息进行编码得到标签编码信息;
103、融合文本编码信息和标签编码信息,得到融合标签Query信息;
所述步骤103包括:
a)将文本编码信息和标签编码信息映射到同一同特征空间;
b)使用注意力机制计算权重;
c)融合文本编码信息和标签编码信息;
所述融合文本编码信息和标签编码信息:
其中 表示融合标签Query信息,c表示实体类别,V,b是可训练参数,tanh()是激活函数;
104、对融合标签Query信息采用指针网络枚举所有潜在的实体片段,并计算每个实体片段的局部上下文相关的向量空间表示;包括:步骤一:对于每一个实体类别分别设置头指针、尾指针,并对所有头指针为1的匹配尾指针为1的实体片段,步骤二:对每个实体片段的向量空间表示加入标签Query信息 和 并根据头指针和尾指针嵌入实体片段的长度特征elength(end‑start),则每个实体片段的初始向量表示 其中 表示融入了实体类别k的标签Query信息的实体片段的第1个字符编码;
105、引入动态实体片段图将全局的信息整合到实体片段的向量空间表示中,并对实体片段进行分类得到最终抽取结果。
2.根据权利要求1所述的一种电商商品属性智能抽取方法,其特征在于,所述步骤102对每一类实体类别标签构造一个Query,对原始文本信息使用BERT编码器进行独立编码,得到文本编码信息,对标签Query信息使用BERT编码器进行独立编码得到标签编码信息。
3.根据权利要求1所述的一种电商商品属性智能抽取方法,其特征在于,所述将文本编码信息和标签编码信息映射到同一同特征空间:h'X=W1hX (4)h'Y=W2hY (5)d×d
其中W1,W2∈R 是可训练参数,其中d表示字向量维度,hX,hY分别表示文本编码信息和标签编码信息。
4.根据权利要求1所述的一种电商商品属性智能抽取方法,其特征在于,所述使用注意力机制计算相关性权重:其中 分别表示经过特征映射后的原始文本信息第i个字符编码和标签Query信息第j个字符编码,c表示实体类别, 表示文本编码信息和标签编码信息相关性权重。
5.根据权利要求1所述的一种电商商品属性智能抽取方法,其特征在于,所述步骤105引入动态实体片段图将全局的信息整合到实体片段的向量空间表示中:采用束搜索剪枝beam pruning策略动态地选择高质量的实体片段作为图节点列表记为BC,定义第t次迭代中的共指可信矩阵 其中K为考虑的父节点数量的最大值,则更新向量 表示更新向量,bc代表图节点, 是实体片段的向量表示,其中 是通过 拼接计
算得到的标量分值。
6.根据权利要求5所述的一种电商商品属性智能抽取方法,其特征在于,所述动态实体片段图:得到更新向量 之后,使用门机制更新实体片段的向量空间表示,定义一个门向量来权衡对先前实体片段的向量空间表示 的保留以及对共指关系的更新向量 新信息的引入计算如下:其中 是可训练参数,其中d表示字向量维度,sigmod()是激活函数,表示更新向量, 表示对先前实体片段的向量空间表示的权重。