1.一种地址信息标准化方法,其特征在于,包括下述步骤:
获取待标准化的地址信息;
将所述地址信息输入到预设的分词模型中,得到所述分词模型输出的地址分词;
将所述地址分词与预设的地址库匹配,得到与所述地址信息对应的候选地址;
将所述候选地址输入到预设的标准地址生成模型中,得到所述标准地址生成模型输出的标准地址,其中,所述标准地址生成模型基于Seq2Seq模型。
2.根据权利要求1所述的地址信息标准化方法,其特征在于,在所述将所述地址信息输入到预设的分词模型中,得到所述分词模型输出的地址分词的步骤中,所述分词模型基于双向最大匹配法。
3.根据权利要求1所述的地址信息标准化方法,其特征在于,所述将所述地址分词与预设的地址库匹配,得到与所述地址信息对应的候选地址的步骤,包括下述步骤:将所述地址分词与预设的停用词表进行比对,并删除所述地址分词中与所述停用词表中重叠的词,得到过滤后的地址分词;
将所述过滤后的地址分词与预设的地址库匹配,得到与所述地址信息对应的候选地址。
4.根据权利要求1所述的地址信息标准化方法,其特征在于,所述将所述地址分词与预设的地址库匹配,得到与所述地址信息对应的候选地址的步骤,包括下述步骤:根据所述地址分词检索预设的同义词表,并在同义词表中提取所述地址分词中各分词的同义词,得到所述地址分词的扩展结果,其中,所述扩展结果中包含所述地址分词及各地址分词的同义词;
将所述扩展结果与预设的地址库匹配,得到与所述地址信息对应的候选地址。
5.根据权利要求4所述的地址信息标准化方法,其特征在于,在所述将所述扩展结果与预设的地址库匹配,得到与所述地址信息对应的候选地址的步骤中,包括下述步骤:计算所述扩展结果与所述预设的地址库中各常用地址的扩展词覆盖率和/或扩展词顺序覆盖率,其中,所述扩展词覆盖率为所述扩展结果中的地址分词或地址分词的同义词与所述常用地址重叠的词数占所述地址分词数的比例,所述扩展词顺序覆盖率为所述扩展结果中的地址分词或地址分词的同义词与所述常用地址顺序重叠的词数占所述地址分词数的比例;
确定所述扩展词覆盖率和/或扩展词顺序覆盖率最高的常用地址为所述地址信息对应的候选地址。
6.根据权利要求5所述的地址信息标准化方法,其特征在于,通过以下公式确定所述扩展词覆盖率和扩展词顺序覆盖率最高的常用地址为所述地址信息对应的候选地址:S=aX+bY+cXY
其中,S为扩展结果与预设的地址库中常用地址的匹配度,X为扩展词覆盖率,Y扩展词顺序覆盖率,XY为综合词覆盖率,a、b、c分别为扩展词覆盖率、扩展词顺序覆盖率和综合词覆盖率的权重。
7.根据权利要求1所述的地址信息标准化方法,其特征在于,在所述得到与所述地址信息对应的候选地址将所述地址分词与预设的地址库匹配,得到与所述地址信息对应的候选地址的步骤中,包括下述步骤:计算所述地址分词与所述预设的地址库中各常用地址的词覆盖率和/或词顺序覆盖率,其中,所述词覆盖率为所述地址分词中与所述常用地址重叠的词数占所述地址分词数的比例,所述词顺序覆盖率为所述地址分词与所述常用地址顺序重叠的词数占所述地址分词数的比例;
确定所述词覆盖率和/或词顺序覆盖率最高的常用地址为所述地址信息对应的候选地址。
8.一种地址信息标准化装置,其特征在于,包括:
获取模块,用于获取待标准化的地址信息;
分词模块,用于将所述地址信息输入到预设的分词模型中,得到所述分词模型输出的地址分词;
匹配模块,用于将所述地址分词与预设的地址库匹配,得到与所述地址信息对应的候选地址;
执行模块,用于将所述候选地址输入到预设的标准地址生成模型中,得到所述标准地址生成模型输出的标准地址,其中,所述标准地址生成模型基于Seq2Seq模型。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至7中任一项权利要求所述地址信息标准化方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项权利要求所述地址信息标准化方法的步骤。