Web 信息提取是将Web 作为信息源的一类信息抽取, 就是从无结构或半结构的信息抽取中, 识别出用户感兴趣的数据。随着互联网技术的发展,Web 成为全球企业与机构进行信息发布与应用部署的主要平台之一。大量Web 网站和Web 应用的出现使得Web 的数据量急剧増长。Web 上的海量数据蕴含很多有价值的信息。为了获得并分析利用这些有价值的信息,通常需要从Web 上获取精确有用的结构化数据,然后对这些结构化数据进一步分析处理[1]。目前市场上已有很多信息抽取系统,比如,八爪鱼采集器就是其中之一。八爪鱼采集器主要是通过建立模版进行采集,首先选择模式和相应的网站模版,接着预览模版的采集字段,最后设置参数,运行完成数据采集。主要原理是通过正则表达式与Xpath 原理来获取网页数据。该采集器主要的缺点是需要事先知道网页结构并且根据网页结构写出规则来确定Xpath。对于未知网页结构的网页采集效果较差。
目前, 很多学者对Web 信息提取做了一些研究并提供了设计方案。王一州提出一种基于网页聚类的正文信息提取方法,提取信息时主要根据网页的结构特征对网页进行聚类,利用相似网页集合的正文位置生产特征[2]。但该方法只适合提取来自同一网站的网页。孙景春在基于改进网页视觉特征分块算法VIPS 基础上,通过归纳Web 网页视觉特征及视觉块特征信息,提出了基于视觉块识别的网页元数据的Web 页面信息提取算法[3]。
主要用于提取主题型网页及BBS 型网页的信息。
马金娜提出了一种基于DOM 树节点重要度的Web 信息提取方法。首先将Web 页面表示为DOM 树,然后对DOM 树结点重要度进行定义,最后基于DOM 树节点重要度进行Web 信息内容提取[4]。
高峰等人结合有监督广度优先搜索策略提出了一种通用垂直的WEB 信息提取方法。首先自动识别目标主题和目录页面URL,并利用URL 聚类生成URL 正则表达式过滤器,然后利用正则表达式过滤器和解析路径模板以及有监督的广度优先与网页赋权搜索策略进行WEB 信息提取[5]。该方法过度依赖URL 格式,当网站中不同专题的目标页面URL 格式相近时,提取效果不佳。赵朗从深度学习的角度出发,在循环神经网络算法的基础上,提出了基于双层神经网络的信息提取算法[6]。该方法需要用户提交关键词,用户参与度较高,对用户提出的查询进行了统一规定,缺乏个性化服务。
王健提出了基于Hadoop 的web 页面正文抽取的方法, 抽取流程主要为页面预处理、网页分割、正文块识别以及正文语句合并[7]。该方法在对列表型页面进行抽取时显示出很强的局限性。
从以上研究中可以发现,目前学者们的研究和市场上的抽取方法都是针对某一特定类型的网站,大部分都是针对电商平台的网页信息提取。而对于网页结构及设计模式差距较大的企业官网没有提出比较好的解决方案。本文在基于DOM 模型结合关键词路径的基础上提出统计关键词路径出现的次数,确定