基于排名机制的领域Web网页发现

发布日期:2022年9月30日
基于排名机制的领域Web网页发现 基于排名机制的领域Web网页发现

本内容试读结束

下载后可阅读完整内容,立即下载

对很多Web数据集成应用来说,领域Web发现能力至关重要。从目前来看,现有的主题爬取策略依然有效,并随之产生了不少依据这些策略的主题爬虫,然而配置主题爬虫困难且费时,因此提出基于排名机制的领域Web网页发现算法,该算法在现有的主题爬取策略之上,利用给定的样本网页集,使用基于排名的方法,系统地结合多种Web网页发现策略,迭代发现并提取领域Web新网页。实验表明,该方法具有较高的网页准确率,验证了方法的有效性。

互联网高速发展的今天, 对于网页信息的获取, 一种很自然的想法是使用通用的商业搜索引擎, 如:谷歌(Google)、百度(Baidu)、必应(Bing)。我们主要使用基于关键字的搜索以及类似站点的相关搜索,这就要求我们需要阅读大量搜索引擎返回给我们的检索信息,来提取结果。显而易见,对于大规模的数据收集任务,这种信息获取的方式是复杂且低效的。并且对于通常具有特定检索目的、特定领域、特定背景的用户来说,通用搜索引擎返回的结果可能包含大量无用的网页信息[1]。

为解决上述搜索引擎所出现的问题,近些年来也提出了不同的方法来解决这些问题: 1) 领域发现工具(Domain Discovery Tool, DDT) [2]:DDT 旨在简化对于给定领域构造分类器的过程, 以帮助用户发现相关网页。它提供了一个易于使用的界面,这个界面总结了搜索结果并且帮助用户创建查询计划。

2) 前后爬取(Forward and Backward Crawling) [3]以及DEXTER [4]:它们均用于自动发现Web 网页内容。由于它们依赖域分类器,所以它们需要适应不同域。

为了解决这些问题:提出了基于排名机制的领域Web 网页发现算法框架DWDBRM (Domain Web pages Discovery Based on Ranking Mechanism),DWDBRM 不依赖精确域分类器,该算法通过给出小部分有代表性的样本网页,就可以自动发现额外相关网页,这些网页不仅可以用于构造域分类器,而且可以充当主题爬取的种子网页集。它的主要贡献如下: 1) 自助领域发现需要精确域分类器,而该方法仅需要一组小样本有代表性的网页就可以自动发现相关Web 网页,不需要精确域分类器; 2) 由于现有的各种独立网页排名方法适用于不同领域,并且存在效率和精度的差异,因此本文提出一种组合网页排名方法,组合多种独立排名函数,对网页进行排名; 3) 目前所做的发现工作均不支持多种搜索技术,因此本文在此框架中结合多种不同的搜索技术,主要做法是:在每轮迭代中使用multi-armed bandits-based [5]策略来选择最佳搜索操作。实验表明,通过使用multi-armed bandits-based 策略, 我们的方法能够获得较高网页收获率(即相关网页或相关网站与检索的网页数量的比值)。

2. 相关工作 针对领域Web 网页发现,已经提出过多种技术,这些技术大致可以分为两类: 1) 基本搜索发现技术(Search-based discovery techniques):该技术依赖于搜索引擎API (例如:Google、Bing、Baidu)来查找与给定关键字类似的Web 网页。



相关标签