当前位置：问答库＞论文摘要

题目：通用文本处理规则的定义与执行引擎的研究

关键词：文本处理;正则表达式;脚本语言;XML;OSGi

● 摘要

在信息世界中，存在大量的文本处理需求。常见的文本处理问题包括信息抽取、信息过滤、统计与分析、信息检索、内容修改等等。传统方法处理这些问题时，通常是分别开发不同的处理程序来处理不同应用，这种处理机制存在一些缺点：开发工作繁琐、程序难以重用、开发速度慢、开发周期长。因此，传统的文本处理方法无法适应信息时代快速发展的要求。本文设计了可以用于描述文本处理逻辑的规则，并实现了用于执行该规则的引擎。从而使开发文本处理程序的任务简化为开发处理规则。分析一般性的文本处理过程，将文本处理的逻辑归纳为三个基本步骤：匹配、修改、回写。模仿这种处理逻辑设计了规则的数据模型，包括原子规则、规则集、前置条件。然后进一步分析了规则的通用性。利用XML灵活性强且容易编写的特性，定义了规则的文件格式，并给出XML Schema的规范。引擎用于解释并执行规则，实现了处理规则的算法并对算法性能进行了时间复杂度的分析。引擎的设计采用了基于OSGi平台的插件化的体系结构，可以在保证稳定性的前提下，可保证系统能实现灵活的扩展。本文最后提供了两个实例：Web主题文本提取和Blog静态页面的生成，通过实例验证了本文方法的可行性和实用性。并对引擎执行的性能进行了分析，通过与原生的Java程序的执行开销进行对比，验证了本文方法的有效性。

当前位置：问答库＞论文摘要

题目：通用文本处理规则的定义与执行引擎的研究

相关题目: