● 摘要
在信息世界中,存在大量的文本处理需求。常见的文本处理问题包括信息抽取、信息过滤、统计与分析、信息检索、内容修改等等。传统方法处理这些问题时,通常是分别开发不同的处理程序来处理不同应用,这种处理机制存在一些缺点:开发工作繁琐、程序难以重用、开发速度慢、开发周期长。因此,传统的文本处理方法无法适应信息时代快速发展的要求。本文设计了可以用于描述文本处理逻辑的规则,并实现了用于执行该规则的引擎。从而使开发文本处理程序的任务简化为开发处理规则。分析一般性的文本处理过程,将文本处理的逻辑归纳为三个基本步骤:匹配、修改、回写。模仿这种处理逻辑设计了规则的数据模型,包括原子规则、规则集、前置条件。然后进一步分析了规则的通用性。利用XML灵活性强且容易编写的特性,定义了规则的文件格式,并给出XML Schema的规范。引擎用于解释并执行规则,实现了处理规则的算法并对算法性能进行了时间复杂度的分析。引擎的设计采用了基于OSGi平台的插件化的体系结构,可以在保证稳定性的前提下,可保证系统能实现灵活的扩展。本文最后提供了两个实例:Web主题文本提取和Blog静态页面的生成,通过实例验证了本文方法的可行性和实用性。并对引擎执行的性能进行了分析,通过与原生的Java程序的执行开销进行对比,验证了本文方法的有效性。
相关内容
相关标签