● 摘要
随着网络和信息技术的发展,信息正急剧的膨胀,而人类对信息的需求也越来越迫切。目前,人们从海量信息中获取信息乃至知识的途径主要是通过搜索引擎,而传统的搜索引擎主要的目的是依据用户的查询条件来找寻匹配的信息,它不能主动辅助用户发现自己未知或了解不多的信息,且当用户需求表达不明确时,它很难辅助用户准确找到相关信息。如何让不知疲倦的机器辅助人类获取和分析海量的文本信息并以最快速有效的方式将人们所需要的知识表达出来,一直是文本挖掘研究所关注的课题。在语义Web领域,人们也开始重视利用本体对已有知识及其关联的标准化表达、传递和整合。如何结合本体和文本挖掘技术到搜索引擎中,以进一步辅助用户更准确、更方便的发现自己感兴趣的知识,是本文研究的重要目标。本文同时研究了本体管理、文本挖掘和信息检索三个领域的相关技术,并在此基础上研究结合本体和文本挖掘的搜索引擎的关键技术。首先,研究了支持以语义关联为核心的大规模本体库的构建和利用方式,实现了一个高效的基于Web的双语本体管理系统——WBBOMS,并在此本体管理系统的基础上进行OWL格式导出和基于语义的相关词发现。然后,分别以中文学术论文的元信息提取和中文分词为切入点,提出并实现了提取中文学术论文元信息的方法以及以语义实体为单位、基于二元迭代切分的分词算法。在新构造的分词系统BUAASEISEG的基础上,研究了中英文实体识别和主题提取技术,结合分词的搜索引擎技术,以及基于搜索引擎和元数据的知识挖掘方法。最后,将本体管理和主题提取引入搜索引擎中,实现了可基于内容提示相关查询词,可对查询结果项对应的文档进行主题词提取,可对查询结果页进行主题归纳,可根据主题词从本体库中提取双语语义相关词汇,亦可根据从搜索结果文档内容中提取出来的主题词构造本体的搜索引擎——DiMoor。各种评测和实验表明,本文在改造和融合这三个领域的相关技术方面的努力不仅具有研究价值,而且具有实用价值,本文研究结果可以作为相关研究的参考和基于相关技术的应用基础。
相关内容
相关标签