为解决人工中文地址因输入不准确造成的地址解析错误问题,本文首先结合词汇增强的基于Transformer的双向编码表征模型(LEBERT)与条件随机场(CRF),提出了LEBERT-CRF模型,相较BERT-长短期记忆-CRF模型(BERT-BiLSTM-CRF)在分词准确率、召回率以及F值上分别提升了1.45%、1.89%和1.67%。然后,通过标准层级地址数据,并引入别名、旧名等地址信息构建了地址知识图谱库。最终,利用经过分词处理的地址数据,并根据地址数据存在的几种可能错误类型,设计出一种基于地址知识图谱库的匹配算法,对分词完的地址数据进行匹配修正并得到准确地址信息,相较于中文省份城市地区匹配器(CPCA),地址解析在一级地址、二级地址、三级地址上解析准确率分别提升了2.12%、2.36%和1.12%。
地理信息化建设是国家近年来的重大建设任务,而中文地址解析是其中的重要组成部分。发展中文地址解析技术,有利于构建更健壮的地理信息系统,进而更好地服务国家建设[1]。
目前,大部分中文地址仍然为人工手动输入。这种人工输入的地址依赖于输入者的习惯,容易产生地址语义不清晰、部分地名缺失等问题,从而导致无法解析定位等问题。解决这些问题的核心挑战是改进中文地址分词以及中文地址修正匹配方法。
中文地址分词属于中文分词任务中的子任务。
传统的中文分词方法主要包括字典匹配法[2] [3]、机器学习方法[4] [5] [6] [7] [8]等。随着深度学习技术的发展,通过训练基于神经网络的深度学习模型进行中文分词成为了中文分词的主要研究方法。2006 年,张晓淼将反向传播(Back Propagate, BP)神经网络进行改进并将其运用于中文分词任务[9]。2015 年,Chen 等人将长短期记忆模型(Long Short-Term Memory, LSTM)用于中文分词以及词性标注任务[10]。Graves 提出了双向长短期记忆模型(Bidirectional-LSTM, Bi-LSTM)模型[11], 黄积杨将Bi-LSTM 模型应用于中文分词任务[12]。
张子睿等人则在Bi-LSTM 模型的基础上引入了条件随机场(Conditional Random Field, CRF)层,构建了BILSTM-CRF 模型[13]。张文静等人提出了格式LSTM (Lattice-LSTM)模型,将词典信息输入到了字符序列中[14]。王玮提出了基于六词位标注的Bi-LSTM 模型[15],进一步提升了中文分词的效果。Jacob 等人提出了将Transformer 中编码器改造为双向的结构,即基于Transformer 的双向编码表征模型(Bidirectional Encoder Representations from Transformers, BERT)预训练模型[16]。目前,有学者继续基于BERT 预训练提出了平均池化[17]、跨层参数共享[18]等改进方法。
当前,中文地址匹配的主流方法基于规则进行匹配[19] [20] [21],很少考虑地名的多语义性,导致匹配过程中对于多语义性地址匹配准确度较低。为了解决上述问题,Bizer 等人提出了链接数据概念,将语义网络中不同类型的数据集链接起来,构成一个庞大的知识图谱[22]。2009 年,Akerkar 等人提出了知识存储数据库系统,为知识图谱的信息存储打下基础[23]。之后,Google 正式提出了基于语义网络的知识