当前位置:问答库>论文摘要

题目:互联网文本信息地域化平台的设计与实现

关键词:地域化;地名识别;地域标签

  摘要

越来越多的信息服务应用成为互联网用户日常生活的一部分,但信息量的激增却给用户在获取信息时带来了巨大的挑战。其中一个热门的研究方向是,如何将信息按照地域进行分类,并方便、准确地呈现在用户面前。本课题的研究目标是:提供一个互联网文本信息地域化的平台,对互联网上的文本信息自动化地进行地理信息的抽取,并打上一个或多个地域标签。然后按照地域标签,对互联网上海量的信息进行地域化的整合。为了完成从网页文本到地域标签的判定过程,需要依次进行如下处理流程:正文信息的去噪和去重、地域名词的识别、判定地域属性并打地域标签。依据任务,把系统划分为四个模块:地理信息库模块、正文抽取模块、地域名词识别模块、地域属性及地域标签判定模块。地理信息库向其他模块提供基础的信息查询服务,包含官方行政区划、非官方地名、逻辑区域、地点实体四大类地域实体及映射关系。正文抽取模块负责对互联网上下载的网页文本做第一步处理,分为去噪和去重两个阶段。地域名词识别模块的输入是每一篇网页正文,输出该网页正文中包含的所有地域名词,即地名。地域属性判定从得到的地名列表中过滤出具有地域属性的地名,地域标签判定是,对于一条信息中出现的多个有地域属性的地名,采用自主设计的算法,利用树状结构、权值排序和筛选,兼顾了文本出现次数和地理位置的关系,计算出最终代表该信息整体的地名作为地域标签。整个平台的技术指标分为三个:准确率、召回率和二者的调和平均值。采用的测试方法是:随机选取一定量的数据,先由该系统进行自动判定,再由人工评价这些判定结果,针对结果的正确性计算出上述三个技术指标。