现有燃气IC卡地址数据与用户管理数据无法直接关联,地址数据复杂以至于常规解决方法工作量大、时间长、投入高,针对此问题,研究地址关联工作,提出一种数据治理体系,包含组织构建、数据摸底、策略制定、数据治理、数据验证、持续改进六个模块,可以对复杂地址数据进行处理,从而实现地址直接关联,试验证明,能有效提高地址关联率和准确率。 *通讯作者。
目前的信息系统大多都包含有地址、联系方式这样的字段, 如日常使用的地名、门牌、建筑物名称、企事业单位等, 都是地址信息[1]。
现有基于地址信息的民用IC 卡系统存在与客服子系统不能关联的问题, 民用IC 卡系统负责用户的开卡、补卡等工作,系统中功能包括气量开补卡、售气、补写、燃气卡查询、用户信息查询和相关统计功能。客服子系统负责支持民用IC 卡用户的地址管理、表具管理、巡检(安检)等业务功能,由于民用IC 卡系统用户数据不规范,无法与用户管理系统-客服子系统用户数据相关联, 无任何集成关系, 导致客服人员不能及时查询民用IC 卡系统的收费信息。由于早期的用户地址录入是人工书写记录,包含错别字,表达方式不同,地址数据不规范的问题,关联存在很大难度。针对此问题, 研究地址关联工作,提出一种数据治理体系,包含组织构建、数据摸底、策略制定、数据治理、数据验证五个模块,可以实现地址数据的直接关联,试验证明,能有效提高地址关联率和准确率。
2. 复杂中文地址治理 依据地址多样性分析,得知原始数据杂乱无章、关系复杂,由此我们建立数据治理体系对地址数据进行有序处理。数据治理体系建设的目的,是建立数据拥有者、使用者、数据以及支撑系统之间的和谐互补关系,从全机构视角协调、统领各个层面的数据管理工作,确保内部各类人员能够得到及时、准确的数据支持和服务数据。治理体系主要包括组织构建、数据摸底、策略制定、数据管控、数据验证五个模块。通过组织架构建立管理方法,制定工作流程,确定角色职责。对数据进行摸底,充分掌握数据情况。通过策略制定有针对性的对不同类型数据采取不同关联方法。数据管控主要包括数据提取、数据分词、数据过滤、数据存储、数据标准化五部分进行数据关联,最后验证关联结果。各模块协同运营,确保数据关联率和准确率。
3. 数据治理体系 3.1. 组织构建 数据治理体系的组织构建旨在通过建立组织架构明确各级角色和职责,保障数据治理的各项管理方法、工作流程的实施, 关联数据治理工作的有序开展。
组织架构主要包括数据治理决策者、数据分析者、数据关 联者、数据测试者,数据质量管控者,数据清洗者。
具体包括如下人员:北京燃气集团信息档案中心、北京燃气集团销售服务部、北京燃气集团第一至五分公司和郊区子公司、北京信息科技大学,角色职责见表1。
3.2. 数据摸底 数据摸底工作在整个流程中非常关键,是对地址数据进行数据抽取,充分了解数据情况,从而制定