● 摘要
垂直搜索是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸。本文所研究的课题来源于“教育部毕业生职位垂直搜索引擎”项目。在本文中,研究的焦点是中文分词和查询检索相关技术。中文分词是中文信息处理的基础,对于搜索引擎而言是不可或缺的部分。本文在对职位垂直检索分词需求与职位信息的语料特点进行深入研究的基础上,提出了机构名的构成规则,建立了用于职位相关信息切分的专有词典,并定制了一个基于合并策略的未登录词识别方法。本系统与海量分词系统进行了对比实验,实验表明,针对职位相关信息切分这个特定领域,本文系统有更好的切分性能,在封闭测试中分词的准确率可以达到97.26%,召回率可达96.77%。排序技术是和用户体验最为相关的一个关键技术,用户通常只浏览排在最前面的数条信息。本文研究了基于VSM空间向量模型的传统相关排序技术,在此基础上,考虑到职位信息的时效性、来源以及用户的反馈信息等因素,设计了一个能反映多种因素的排序算法。根据职位搜索引擎用户日志分析,其输入查询词个数平均为2.18,同时存在着大量的同义词与多义词等问题。为进一步提高搜索引擎的查准率、召回率,改善用户体验,本文采用多级索引的方法,解决相关词和同义词问题。考虑到用户按公司名称检索的两类需求,本文提供按公司名称同音容错信息提示和按公司名称简称提示两项功能。论文依托上面的研究工作,实现了一个完整的职位垂直搜索引擎。同时,本文所研究的多项技术在“教育部毕业生职位垂直搜索引擎”项目中得到了应用,取得了很好的效果。
相关内容
相关标签