提供面向领域的信息增值服务是Web数据挖掘的目标之一,面向领域的Web数据抽取与集成是提供领域信息增值服务的基础,也是Web数据挖掘领域的一个主要研究方向,结合领域需求,本文提出一种面向领域的Web数据抽取与集成架构,在给出Web数据模型与Web数据模式、领域数据模型和领域数据模式等相关概念基础上,提出Web数据模式与领域数据模式的映射方法和数据层次上的集成方法,用于解决集成过程中的模式层次和数据层次的冲突问题,并讨论了web数据抽取和领域增值服务的实现方法。结合实际需求开发了房地产信息平台及综合应用系统,验证了模型和算法的有效性。
大数据时代,随着越来越多的企业和组织机构在Web 上发布大量的信息,从成千上万的网页中抽取和集成这种海量数据的能力正变得越来越重要。通过Web 数据抽取与集成,使人们能够获取和整合来自不同Web 数据源的数据,以提供面向领域的增值服务。
为了提供面向领域的数据增值服务,我们需要从大量异构的网站中提取各种数据并集成为一个统一的数据库平台, 并在此基础上开发面向领域的增值服务, 这其中面临的主要问题包括[1]-[7]:如何从海量异构网页种高效抽取各种源数据;如何解决不同网页抽取数据在模式层次和实例层次的冲突问题;如何建立的领域数据集成模,以及集成模式与各种不同类型网页数据模式的映射关系;如何在领域数据集成模式的基础上建立面向领域的服务模型等主要问题。
目前,针对web 数据抽取与集成问题的相关技术研究主要体现在如下两方面。
在web 数据抽取研究方面的研究[1] [2] [7] [9] [10], Web 数据抽取是一个关于从网页中抽取目标信息的问题。其中包含两大问题:即从自然语言文本中抽取信息和从网页中抽取结构化数据。这里重点讨论结构化数据抽取。
Web 结构化数据通常是从后台数据库获取数据记录, 并按照一定的模板展现在网页上。
Web 数据抽取技术是从20 世纪90 年代开始研究,目前有关web 数据抽取技术可以分为三种主要类别:1) 包装器编程语言和可视化平台,2) 包装器归纳,3) 自动抽取。其中前两种方法的缺点是无法处理大量站点和网页情形,并且如果站点频繁更新的话,维护的开销会很大。自动抽取可能会抽取大量无用数据,需要复杂数据模式和数值的匹配,效率不高。
同时,随着web 技术的发展,在web 数据抽取领域又出现一些新的问题亟待解决,其中包括:隐含web 数据库抽取、基于动态链接的web 页面数据抽取、基于用户验证码的web 数据抽取和基于图模式的web 页面数据抽取等问题。
在web 数据集成研究方面的研究[2]-[4] [6],对于领域应用需求来讲,需要从大量的网站中提取数据并集成, 以便通过领域增值服务, 在此情况下, 需要把从各个网站提取的数据集成为一个统一的数据库, 这是因为不同的网站往往使用不同的数据格式。对不同的Web 数据表而言,集成意味着匹配出表示同类