一种基于带权集合的搜索引擎隐式反馈算法

发布日期：2011 年11 月19 日

预览
摘要

本内容试读结束

下载后可阅读完整内容，立即下载

：随着Internet 的迅速发展，网络信息资源开始爆炸式增长。传统的搜索引擎很难从用户输入的检索词中获知其检索意图，只能返回大量匹配结果供用户选择。为了有效的提高搜索引擎的查准率，本文提出了一种基于带权集合的隐式反馈算法。本文通过分析搜索引擎返回结果页面的特点，提出了一种描述网页摘要的带权集合以及相应元素的权重计算方法，并设计了一种带权集合的交集运算方法，通过该运算可以获取用户隐含的检索意图，最后以查询扩展的方式提高搜索引擎的准确性。本文在Google 搜索引擎上做了本算法的若干实验，验证了本算法的有效性。

随着互联网上Web 信息的激增，搜索引擎已成为人们在信息海洋中获取有效信息不可或缺的工具。然而，搜索引擎并未尽如人意，比如当用户输入“PC 价格”时，搜索引擎Google 会返回“PC 塑料价格”、“PC 电脑价格”等语义截然不同的结果，而且结果总数为105,000,000 之多[1]，使得用户还需花费许多时间筛选他真正需要的东西，有时也会因找不到理想的结果而感到失望。有研究表明大约有50%的检索无法得到理想的结果[2]。

造成这个问题的原因有两个方面：一方面是人们输入的检索词一般很短，如Web 检索词的平均个数为2.4，近一半的用户在检索时只输入1个检索词[3]，寥寥几个检索词往往词不达意，不能准确表达用户意图；另一方面，搜索引擎无法从仅有的几个检索词中获知用户真实需求，只能采用关键词匹