一种基于带权集合的搜索引擎隐式反馈算法

发布日期:2011 年11 月19 日
一种基于带权集合的搜索引擎隐式反馈算法 一种基于带权集合的搜索引擎隐式反馈算法

本内容试读结束

下载后可阅读完整内容,立即下载

:随着Internet 的迅速发展,网络信息资源开始爆炸式增长。传统的搜索引擎很难从用户输入的检索词中获知其检索意图,只能返回大量匹配结果供用户选择。为了有效的提高搜索引擎的查准率,本文提出了一种基于带权集合的隐式反馈算法。本文通过分析搜索引擎返回结果页面的特点,提出了一种描述网页摘要的带权集合以及相应元素的权重计算方法,并设计了一种带权集合的交集运算方法,通过该运算可以获取用户隐含的检索意图,最后以查询扩展的方式提高搜索引擎的准确性。本文在Google 搜索引擎上做了本算法的若干实验,验证了本算法的有效性。

随着互联网上Web 信息的激增, 搜索引擎已成为人们在信息海洋中获取有效信息不可或缺的工具。然而,搜索引擎并未尽如人意,比如当用户输入“PC 价格”时,搜索引擎Google 会返回“PC 塑料价格”、“PC 电脑价格”等语义截然不同的结果, 而且结果总数为105,000,000 之多[1],使得用户还需花费许多时 间筛选他真正需要的东西,有时也会因找不到理想的结果而感到失望。有研究表明大约有50%的检索无法得到理想的结果[2]。

造成这个问题的原因有两个方面:一方面是人们输入的检索词一般很短, 如Web 检索词的平均个数为2.4,近一半的用户在检索时只输入1个检索词[3],寥寥几个检索词往往词不达意,不能准确表达用户意图;另一方面,搜索引擎无法从仅有的几个检索词中获知用户真实需求,只能采用关键词匹



相关标签