当前位置:问答库>论文摘要

题目:多样格式化文档识别系统 的设计与实现

关键词:倾斜检测,版面分析,表格识别,文档识别系统

  摘要



 随着信息化技术的发展,相互交流的信息内容越来越丰富,一个信息文档中不仅会包含各种文本信息,而且存在各种样的表格以及图形图像等格式的内容。如何有效地分析与识别多样格式的文档,已成为了当今信息处理的研究热点问题。因此,设计实现一套可处理多样格式的文档识别系统,对于当今的信息处理有着重要的理论意义与广泛的实用价值。

      本课题在研究当前光电字符识别(OCR)系统及相关知识技术的基础上,设计并实现了一套可处理多样格式的文档识别系统。该系统研究并解决了包括文档倾斜检测与校正、版面分析、表格识别等要点、难点问题。本文主要工作如下:

      其一,为了解决传统页面倾斜检测算法计算量过大以及处理速度较慢等问题,本文提出了基于局部区域的倾斜检测的算法。该检测算法仅选取整个文档的某一个区域作为倾斜检测的研究对象,并基于最小二值乘法进行直线拟合得到页面的倾斜角度。实验结果表明,基于局部区域的倾斜检测算法相对传统霍夫变换的算法准确度更高、速度更快。

      其二,为了快速且准确地分析多样格式文档的版面信息,本文将版面分析分为版面分割与区域识别两个阶段。版面分割中,本文采用基于投影和递归的多叉树模型算法,并引入“自底向上”的区域合并策略提高算法鲁棒性;区域识别中,本文采用基于版面连通域特征值的区域识别方法。实验结果表明,对于多样格式文档的版面分析正确率超过90%。

       其三,针对表格识别中存在的折线、断线及由距离较近字符或因字符中的长笔划引起的杂线等情况,本文提出了一种快速、简单的通用表格检测算法。该算法采用两次扫描分别提取水平框线与垂直框线,并通过对扫描后的线段进行分组合并,剔除误检测出的线段。实验表明该算法在快速表格识别中取得较好的效果。