在政务大数据中心的数据治理过程中,不同政务场景下,由于管理策略不同,业务过程对实体对象的相同属性信息的记录会有不同的数据编码结构,这就是政务数据多源融合过程中常见的一种难题。与常规方法不同,本文通过引入统计学的列联相关分析法,解决了不同业务场景的异构法人登记属性融合问题,建立了准确的映射关系。此实践将统计学方法应用到多源异构政务数据融合过程中,不仅快速、低成本的解决了实际问题,并且对于解决其他数据融合问题具有较高的参考价值。
根据《政务信息资源共享管理暂行办法》(国办发〔2017〕39 号)要求,要加快推动政务信息系统互联和公共数据共享,充分发挥政务信息资源共享在深化改革、转变职能、创新管理中的重要作用,增强政府公信力,提高行政效率,提升服务水平[1]。目前政务大数据中心的建设日趋完善,政府部门数据共享也在积极推动,打破信息壁垒,优化政府管理流程和提升协同治理能力成为当务之急[2]。随着数据共享交换逐步深入,对数据质量的要求也在逐步提升,出现了大量的多源异构政务数据融合的数据治理需求。本文就政务数据多源融合过程中常遇到的编码映射问题,通过尝试统计学的方法,为不同业务场景下产生的异构法人登记状态建立起准确的映射关系。
2. 现状与问题 政务管理工作体系庞大而复杂,相同的实体对象,例如自然人、法人等,在不同的政务场景下都有数据产生。不同的管理层次、管理策略,加上辅助政务的系统由不同的开发商在不同的年代开发,因此对实体数据的记录方式也有着较大的差异,进而产生了大量的政务异构数据。
与此同时,不同政务场景下,不同的政务系统对实体的相同属性建立了不同的策略的数据编码规则, 这些编码都是根据场景的需求及当时的管理策略建立的,日积月累而成,因此不同的场景下的相同实体属性编码存在较大的差异[3]。
政务大数据中心为了满足不同政务部门的数据应用需求,提供质量更高的数据服务,就需要想方设法融合这些多源异构编码,即建立编码映射关系。
常规的方法基本上都是依靠数据来源政务部门的协调来寻求编码的一致性或建立映射关系,但这种方法周期长,难度大,并且难以持续应对实际政务过程中的不断变化[4]。
因此,在不断追求数据融合质量、效率的目标引导下,政务大数据中心不断探索、寻求更优化的方法来解决多源异构编码融合问题。
本文通过一个实际问题的实践,探索运用统计学算法来解决此类问题。
3. 异构编码融合问题实例 在政务大数据中心法人实体数据治理过程中,出现了如下的实际问题。
法人实体(包含法人和其他组织,以统一社会信用编码的管理范畴为准)的数据有两个来源A、B,所