● 摘要
在863主题项目——智慧城市的研究中,数据活化被认为是其中的关键技术。城市运营中的各种数据需要被激活。激活后数据具有生命,数据的关联性、实时性、感知性以及成长性被呈现出来。数据活化的概念便在该环境下应运而生。搜索引擎作为主流的海量数据检索工具,在信息世界中有着不可替代的作用。典型的互联网搜索引擎的检索过程是:用户提交一个查询,搜索引擎通过检索返回一个有序的结果列表,排序的依据由相关性算法整合综合各种影响因素计算得出。用户需要详细浏览这个列表中的所有结果,来确认到底哪些是自己想要的信息。因此,为了满足日益增长的网络用户对查询质量的要求,必须提高搜索引擎检索结果的可浏览性。基于以上这些问题,本文面向搜索引擎结果活化课题开展相关研究。应用数据活化的概念,使用已有的一系列机器学习和文本挖掘的手段对搜索引擎结果数据进行激活,建立这些结果的分析模型,挖掘这些结果之间的内在关联,分析这些结果的主题领域,并且对这结果进行优化呈现。由于搜索引擎结果目前主要是文本数据,本文提出的活化方案是使用文本聚类技术,将搜索引擎返回的列表式结果集进行聚类处理,将相似的内容置于一个目录下,并从这个目录中提取这些文档的主题,呈现给用户带有类别标签的目录式检索结果。论文从Web文本挖掘中的预处理技术、搜索引擎结果聚类、聚类主题标签提取算法三方面展开讨论,阐述了上述领域的已经存在的技术、观点、方法。在预处理技术研究中,提出了一种基于改进信息熵特征的未登录词识别方法,并对该方法进行了实验验证。在文本特征提取的研究中,本文重点研究了基于潜在语义索引的相关方法。在搜索引擎结果聚类技术研究中,本文对K-means算法做了两方面改进,使得该算法能够更加适应搜索引擎结果这一特殊的数据形式。最后,在对技术进行研究的基础上开发了基于搜索引擎结果活化的元搜索引擎,同时也在论文中对该系统的设计和实现进行了阐述。
相关内容
相关标签