基于WEB网页文本信息抽取研究与实现

发布日期：2015年11月26日

预览
摘要

本内容试读结束

下载后可阅读完整内容，立即下载

本文以传统的信息抽取理论和方法为基础，实现了一种基于XML特征的网页文本抽取方法。研究了一般

Web网已经成为一个巨大的信息源，数据量急剧地膨胀， Web网也成为人们获取信息的重要来源[1]。

然而Web 页面中存在着大量的HTML 格式的无结构数据和少量XML 格式的半结构数据[2]。

网页抽取也成为信息搜索(Information Search)、数据挖掘(Data Mining)、机器翻译(Machine Translation)和文本摘要(Text Digest)等Web 信息处理的基础。

Web 信息抽取(Web Information Extraction，简称WIE)是指：给出属于同一类型的若干样本网页。找出它们的源数据集的嵌套结构，并将源数据集从网页中抽取出来。即通过对原文档信息内容和结构的分析，抽取出有意义的部分，生成结构化的有价值的信息。

Web 信息抽取渐渐成为一个崭新而热门的课题，从互联网资源中抽取数据的传统方法就是编写特定的程序，这种程序被称为“Wrapper”。Wrapper 是一个能够将基于HTML 描述的Web 网页内容转换为按照某种结构化描述的数据集合(例如XML 数据、关系数据库)的软件程序。它由信息抽取所需的信息识别与结构影射知识和应用这种抽取知识的处理程序组成。根据各种工具用于产生Wrapper 而采取的不同技术，目前的Web 数据抽取工具可分为六种：Wrapper 开发语言，可感知HTML 的工具，基于NLP 的工具，Wrapper 归纳工具，基于建模的工具，基于语义的工具[1]。

本文从理论上分析网页文本信息抽取的方法及流程，具体阐述了网页文本信息抽取的理论和方法，以当当网页文本信息抽取为例，介绍了基于标签的信息抽取系统的概述，同时阐明了具体的过程和模块，给出该抽取实现方法的步骤以及实现的某些核心代码，分析此方法的优点和可以进一步改进的地方，并就其意义和所需进一步思考的地方进行了阐述。

2. Web 网页文本信息抽取的流程和原理无论挖掘的目的是什么，都可以把Web 文本挖掘的一般处理过程用图1 来概括。

目前解决网页信息抽取问题比较典型的方法有：基于自然语言处理(NLP)方式的信息抽取；基于包装器归纳方式的信息抽取；基于ontology 方式的信息抽取；基于HTMI 结构的信息抽取；基于web 查询的信息抽取等[2]。

基于web 查询的信息抽取：是利用数据库技术在对互联网的网上数据进行管理和查询，将Web 信息抽取转化成运用标准的Web 查询语言对Web 页面文档进行查询，具有很强的通用性。采用这种技术的系统有：Web-OQL 以及自主开发的原型系统PQAgent [3]。

把网页标准化成为HTML，然后将其转化成为XML，根据XML 语言进行抽取信息。

3. 网页文本信息抽取设计 3.1. 网页文本信息抽取设计方案多数Web 文档都是把标记和文本按照HTML 的定义联在一起的。标记包括“<”和“>”，在“<”