● 摘要
随着Internet的飞速发展,人们利用Internet发展和共享各种信息,使得信息爆炸式增长,普通网络用户查找所需资料变得非常困难,搜索引擎正是为了解决这一问题而发展起来的。现在的搜索引擎存在明显的缺陷:一是搜索引擎结果数量庞大;二是搜索结果线性排列。本文在现有搜索引擎相关技术研究的基础上,对文档聚类进一步研究,致力于搜索结果的自动聚类,从而使得用户更加直观高效地找到所需结果。本文首先对文档聚类的相关技术进行研究,然后设计了基于GoogleWebAPI的解决方案,将搜索引擎返回的结果进行聚类处理,最后以结构化的方式显示给最终用户。本文的主要研究成果包括:(1) 对现有的搜索结果重排序方法进行了研究,提出了一种以搜索结果现有顺序为基础,根据查询词和返回结果间的语义相似度来完成搜索结果重排序的方法。本文的重排序方法利用《同义词词林(扩展版)》中的树状层次结构,首先计算出汉语词语间的语义相似度,进而得到查询词和返回结果间的语义相似度,并根据该相似度完成对搜索结果的重排序。(2) 对现有的聚类算法进行了归纳总结,并对应用在英文搜索引擎结果聚类效果较好的后缀树聚类算法(Suffix Tree Cluster Algorithm)进行研究并针对不足之处予以改进,弥补了后缀树算法处理中文信息的不足,并把后缀树改进算法应用到中文搜索结果的聚类。(3) 在以上面各项研究的基础上,设计并实现了搜索结果聚类原型系统,并做了相关的试验验证,通过对试验结果进行分析,证明了本文方法的可行性和有效性。搜索引擎结果聚类是一个崭新的领域,其相关的许多技术还在发展,本文的最后对进一步的研究工作进行了探讨。