结合标注的中文地址匹配规则链模型

发布日期:2021年9月17日
结合标注的中文地址匹配规则链模型 结合标注的中文地址匹配规则链模型

本内容试读结束

下载后可阅读完整内容,立即下载

现有的中文地址匹配研究方法集中于对文本特征的研究,忽略了中文地址所包含的建筑特征、地理位置特征、统计特征和行业特征的数据,此类特征数据可以有效辅助中文地址的匹配研究。本文主要面向非规范的中文地址,以燃气行业居民用户数据为样本数据进行实验,通过分析两个数据源中用户信息的多个特征数据,提出以结合标注的中文地址匹配规则链模型。规则链的优点是链内的规则可以动态配置,通过人工和计算机结合的方式,动态管理规则,多次迭代,逐步提升匹配率。实验结果表明该模型可以一定程度提高中文地址匹配的成功率。

中文地址匹配是指分析和判断两个或多个来自不同数据源中的中文地址,是否指向现实世界中的同一个中文地址。中文地址因其存在复杂性、非规范性、非结构化等问题,给企业内业务系统之间的融合提供了很大阻碍。目前,针对非规范的中文地址匹配研究主要集中在中文地址的文本特征,例如文献[1]提出了一种基于元数据关联特征的交互式数据预处理方法。文献[2]提出了一种新的文本相似度量方法, 应用自然语言处理技术对文本进行预处理。文献[3]提出了一种基于条件随机场的中文地址解析方法。文献[4]提出了一种基于动态规划的中文地址匹配方法。文献[5]提出了一种基于熵的文本相似度求解方法, 在对文本间字符信息的提取基础上,建立共同子文本串度量维度,然后采用熵的方法进行相似度度量。

文献[6]针对当前在电力中文地址匹配中存在部分地址歧义的问题,结合自然语言处理的基本原理,提出了一种基于贝叶斯算法的中文地址精确匹配方法。

综上, 如图1 所示现有的中文地址匹配研究方法集中于中文地址文本特征的研究, 而忽略了中文地址所包含的建筑特征、地理位置特征、统计特征和行业特征的数据, 此类特征数据可以有效地辅助中文地址的匹配研究。

本文以燃气行业居民用户数据为例进行实验, 通过分析两个数据源中用户信息的多个特征数据, 提出以结合标注的中文地址匹配规则链模型,实验结果表明该模型可以一定程度提高中文地址匹配的成功率。

Figure 1. Feature analysis of Chinese address data 图1. 中文地址数据特征分析



相关标签