语义网环境下PROV数据溯源技术应用研究

发布日期：2015年5月27日

预览
摘要

本内容试读结束

下载后可阅读完整内容，立即下载

如何在开放环境下建立通用的，可以在异构系统之间交换、共享溯源信息的规则，是目前数据溯源技术的研究热点。本文引入了W3C提出的PROV数据溯源机制，重点探讨了在语义网环境下如何建立数据溯源核心概念模型以及如何用本体语言对溯源信息进行语义描述，构建了数据溯源实例进行验证，并展望了开放环境下溯源技术的研究发展方向。

数据溯源是关于实体、活动以及相关参与角色等信息的记录，对错误定位、质量保证以及信用提供等具有非常重要的意义。正如“溯源”这个词来源于古法语的“to come from”一样，溯源可以简单的定义为事物的起源以及寻找起源的过程。溯源技术自提出以来，即在数据库和工作流等领域得到了迅速的发展。虽然不同的领域对于溯源的需求和关注点并不一致，但总的思想都是要通过溯源，在数据共享时解决数据的可信度、质量、版本信息等问题，为用户提供可靠的来源语义信息，从而更加信任其获得或者使用的资源[1]-[3]。

2. 语义网环境下的数据溯源及PROV 近几年，Web 技术发展迅速，数据流动方式的改变使得人们不得不更加关注所获得资源的可信度等问题。Web 环境下的数据有以下四个特点，也是其产生溯源需求的直接原因。首先，由于在Web 上数据的传递和复制极为容易，导致数据流动速度加快；其次，数据的质量难以控制，在数据传递过程中被修改或者丢失更加普遍，数据质量难以控制；此外，Web 上的数据本身更新频率快，导致数据验证难度增大；最后，在分布式网络环境中，不同数据驱动的应用都会集合和融合一些数据，融合后的数据真实性和有效性将会大大降低[4]。如果我们可以探寻一种机制来描述事物或者数据的“生命周期”，对其在网络上的活动进行“追踪”并实现不同系统之间的信息共享，以上问题就可以迎刃而解。

2001 年，伯纳斯·李提出了语义网的概念，设想了不仅可以理解人类语言，而且可以使人与电脑的交流与人与人之间交流一样轻松的表达机制。

语义网核心理念是通过给Web 上的文档添加可以被计算机所理解的语义，从而使整个Web 网成为一个通用的信息交换媒介[5]。

添加元数据的思路与溯源技术中在数据变化过程中添加“注释标签”的思路一致，考虑将二者结合以求实现网络环境下的溯源。

随着语义网研究的深入，已经不再局限于溯源在单个领域中的应用，而是考虑将溯源信息以形式化的方式表达，并实现不同系统之间的互操作[1]。目前，针对Web 环境下的溯源模型与术语集很多，包括open provenance model (OPM)、provenance vocabulary 以及PROV 等。其中，W3C 发布的PROV 得到了专家和相关技术人员的肯定，是目前为止网络环境下溯源技术最成功的模型，具有广阔的发展前景。

2009 年9 月，W3C 开设了W3C Provenance Incubator Group (PROV-XG)组织来研究语义网环境下的溯源，设立了“为语义技术、语义开发、语义标准的溯源研究提供最新技术和发展规则”的目标，通过举办“国际溯源与注释大会(IPAW)”、发起起源挑战赛(the Provenance Challenges)等与全世界科学家、技术人员共同提出了PROV。W3C 之后相继发布了一系列规范，包括PROV 本体、数据模型等，现已成