当前位置:问答库>论文摘要

题目:搜索引擎结果聚类技术研究与实现

关键词:WWW,搜索引擎,聚类,文本聚类,分词

  摘要

随着WWW 技术在全球范围内的迅速发展与普及,网络信息资源日趋丰富, 现有的万维网信息检索技术和方法已经不能满足用户对信息的快速性与有效性要求。搜索引擎是目前最主要的万维网信息检索工具,然而搜索引擎的效果还不能 令人满意。这主要表现为:搜索引擎返回的结果是一个庞大的平坦结构的资源清单(即信息负载问题);搜索结果中的信息项并非都是用户真正需要的信息资源(即低精度问题)。聚类通过比较数据的相似性和差异性,能发现数据的内在特征及分布规律,从而获得对数据更深刻的理解与认识。北京航空航天大学软件开发环境国家重点实验室承担的国家科技基础条件平台门户应用系统集成了丰富的科技资源,为了充分利用这些资源,北京航空航天大学软件开发环境国家重点实验室在国家科技基础条件平台门户应用系统中开发了科技搜索引擎。本文针对搜索引擎结果返回过多的问题,引入搜索引擎结果聚类思想,向用户提供启发式搜索服务。本文主要工作内容在于:借鉴文本聚类思想,结合搜索引擎的搜索结果特点,提出了一种不需要分词的搜索引擎结果聚类算法(no segmentation clustering algorithm,NSCA),并设计和实现了系统。

相关内容

相关标签