● 摘要
互联网的发展带来了海量的信息,为帮助用户在浩如烟海的WWW上快速发现和定位信息,信息搜索技术应运而生。然而,基于关键字检索的搜索引擎需要用户准确地输入自己的查询需求。在用户无法精确描述自己需求的信息检索任务中,传统的搜索引擎无法推送准确恰当的信息。新闻报道作为有代表性的多源媒体,广泛地受到人们的关注。作为一种公开的信息源,新闻报道内容获取容易、报道及时、描述客观,特别是专题性新闻报道具有目的明确、信息丰富的特点。这些特征使新闻报道的可利用价值远远超出了浏览与检索的范畴。如何自动准确的将互联网上的新闻信息进行组织、自动发现新的新闻事件,进而将与事件相关的报道归入相应的新闻事件成为人们高效获取信息的关键,对一些敏感事件的快速感知显得尤为重要。本文设计并实现了基于事件探测的新闻专题自动发现系统,主要研究内容包括新闻文档模型的建立、文档与事件关系挖掘策略等。在模型的建立上,将文档信息进行中文分词等相关自然语言处理,获得相关的特征信息,结合网络新闻文档的半结构特征,综合考虑标题位置、词频、文档频率等信息,通过实验设计并确定最终的文档和事件模型。在关系挖掘策略上,引入机器学习中无监督的聚类思想,分析传统聚类算法的特点,结合网络新闻文档的特性,对算法进行改进,使之更好地适用于新闻专题发现领域。通过实验设计,进行纵向和横向的比较,分析并验证了其有效性。本文设计并实现了新闻专题自动发现系统,系统根据新闻网络资源地址从网络上获取新闻资源的流信息,并根据算法从获取的新闻网页中提取出特定的信息,被提取出来的网页信息以结构化的形式描述,作为记录直接存入到新闻资源数据库中。结构化文本的新闻描述方式保证了系统的可扩展性。然后,基于资源数据库进行模型的建立和关系的挖掘,最后对专题发现结果进行展示。通过试运行验证,达到了预期效果。作为自然语言处理领域的一个新的研究方向,事件探测技术目前还处于研究和探索阶段,本文的研究工作还存在一些值得进一步探讨和提高的问题,在本文的最后对未来的工作进行了展望。
相关内容
相关标签