当前位置:问答库>论文摘要

题目:公安交通领域专用全文索引系统的设计及实现

关键词:全文索引;索引项提取;专业检索;Lucene

  摘要

北京市智能交通管理系统(ITMS)经过多年的建设与完善,陆续建成了信号控制、交通综合监测、指挥调度、违法监测等数十个应用系统,各类文本数据的总量已达到TB级。但目前各个应用系统内数据资源相互孤立,资源的利用率比较低。为更好地利用各类数据资源,北京市公安局公安交通管理局提出了建设“智能交通管理信息检索系统”。本文所研究的全文索引是其中的关键支撑技术。本文首先分析了公安交通信息资源的特点,介绍了索引在公安交通全文检索服务中的位置和作用。然后,在对倒排文件索引技术及索引项提取技术研究的基础上,提出了面向公安交通领域的两级索引项提取策略。为了改善检索结果的排序,本文还在计算索引项权重时引入了改进的向量空间模型TFIDF算法。本文采用已在企业级全文检索领域得到广泛应用的Lucene框架,设计实现了具备批量索引和增量更新功能的公安交通资源索引器,并根据公安交通资源的内容和发布特点,制定了公安交通资源的索引配置策略。在此基础上,本文设计实现了由文档库访问、索引器管理、用户接口三部分组成的索引系统。考虑到ITMS内可检索资源种类持续增长的特点,本文在索引器管理部分引入控制反转(IoC)模式,使系统具备动态装配索引器的能力。此外,本文采用Ajax模式设计实现用户接口,使管理人员可以通过Web方式远程监控索引系统的活动。最后,本文参考了TREC和SEWM信息检索评测指标设计了索引系统的测试方案,在公安交通文档集上进行了索引与检索测试,并对结果进行了分析。