● 摘要
摘要
随着我国教育体制的改革,高等职业教育正在迅猛发展,办学规模不断扩大,院校数目也在急剧增加,越来越多的高等职业技术学校受到家长和学生们的关注.然而如何从众多的网络资源中查找出家长和学生们所需要的高职院校信息成为关注高职院校信息人员关心的一大难题,本文设计并开发了一个高职院校搜索系统。该系统旨在为准备报考高职院校的初,高中毕业生提供院校信息、专业、课程情况及相关资讯等,为参加高职院校的人员提供一个便捷的通道和一站式的服务平台。本论文的主要研究内容如下:
论文从高职院校搜索引擎研究背景与意义出发,给出了垂直搜索引擎系统的优势以其发展现状。论文研究了实现垂直搜索引擎的关键技术,包括网页采集,信息提炼,Lucene为平台的索引和检索等。重点分析了爬虫系统的定向内容、链接相关度判定问题、爬行搜索策略和基于Lucene索引和检索的方法。
分析了高职院校搜索引擎系统的需求,结合相关技术,设计并实现了一个高职院校垂直搜索引擎系统,包括网页采集,信息提炼,高职索引和高职检索四大功能。其中通过高职深度网爬虫实现了高职院校相关网页的采集功能。高职深度网爬虫采用修订的层级向量空间模型和改进的PageRank算法对主题相关度进行判断,确保了采集网页的准确性。
通过信息提炼模块实现了对采集到的网页进行信息抽取。应用DOM树方式解析网页内容,指定规则提取高职院校有价值的信息,利用JSON文本格式存储,实现了信息的有规律存储,方便后续的索引和检索提供方便。
通过Lucene的全文搜索框架实现了索引和检索模块。索引模块采用倒排序技术存储索引项信息,通过定制Lucene的索引类创建和管理索引。检索模块对用户在查询界面提交的检索文本进行庖丁分词,然后通过检索类IndexSearcher在索引库查找,利用查询类QueryParser实现检索,最后将文档按照出现的关键词次数及URL权重排序后反馈给用户。
通过高职院校垂直搜索引擎的功能和性能测试,结果表明本系统的功能方面能够实现对高职院校、专业、咨询等信息的全文和高级检索功能。性能方面通过比较测试表明本系统有较高的查全率和查准率,特别在查准率方面,比百度等通用搜索引擎更纯净,返回信息跟高职院校更相关,符合预期的设计要求,达到了最初的设计目标。
相关内容
相关标签