● 摘要
本项目立足于当前国内教育市场发展现实,细分市场、单点突破,以垂直搜索引擎为核心,建设全国高质量的自考资讯整合公益信平台。
对于搜索引擎主导的信息过滤时代,现有主流搜索引擎如百度等对自考资源搜索效率较低,存在四个方面的问题,一是信息覆盖面不足;二是结果不准确;三是检索定式,功能不全;四是自考专业性搜索不足。本文旨在通过构建国内自考专业搜索引擎,整合网络自考资源,解决自考在线学习“最后一英里”问题。
(1)本论文采用计算机与人工判别相结合的方式,对国内自考类专题网站进行了系统甄别,并在此基础上设计了一个专门针对自考用户的,涵盖了自考用户各项实际需求的垂直搜索引擎。在系统结构上,摒弃了通用搜索引擎过于宽泛的特点,采用专题定制搜索方式,并将重要主题采用人工搜集的方式进行整合,确保用户搜到最权威可靠的信息。
(2)在对主题爬虫的改造中,本系统在线程分布上,采用了嵌入哈希值的方式,对爬虫采集线程进行优化,同时在以宽度优先的基础上,对爬虫的采集范围进行了扩充,使其更符合抓取自考类信息网站的特点。
(3)本文对自考类主流网站的网页结构进行了分析,并先后通过正则表达式、Htmlparser类网页内容的抓取进行了尝试和优化,通过去标签法对网页信息进行原文提取。
(4)在Web实现层面上,本系统主要采用了DWR+Spring的模式。通过套用成熟的DWR类库,实现了较为稳定的异步检索。同时通过DWR类库实现了Ajax架构,使得Java类可以再浏览器中呈现,这种异步架构的方式也使得应用服务可以先调用后接受和显示数据,通过以上技术构造了一个低成本、且较为稳定高效的自考搜索引擎。
相关内容
相关标签