● 摘要
视频中的文本能够给视频检索提供重要的辅助信息,随着海量视频检索和视频监视等应用的需求日益增长,视频文本提取已经成为近年来国内外多媒体领域的研究热点。如果视频中的文本能够被有效地提取并识别,许多高层次的应用例如视频摘要,视频内容理解就可以更好地实现。 视频文本的提取首先要解决从单帧图像中提取文本的问题,由于视频在拍摄过程中的场景通常是多变的,因此,文本提取需要考虑复杂背景的问题。如何从复杂的背景中准确地定位文本所在的区域,是视频提取的难点之一。在视频监视等应用中,数据必须得到实时处理。由于视频的数据帧率很高,所以必须提高视频文本提取系统的处理效率。本文提出了一种基于 DCT 域和边缘特征的文本定位方法来处理从单帧图像中定位文本区域的问题。通过提取文本在 DCT 域的特征区分文本与背景图像实现文本区域的预定位。提出一种边缘合成的方法,在降低背景边缘密度的同时增大文本区域的边缘密度,利用文本的边缘特征对文本区域进行优化。 提出了一种视频文本跟踪方案,通过文本定位与跟踪的结合,避免了对视频中每一帧都进行文本定位。采用了一种计算简单的有效跟踪方法对相邻视频帧中的文本区域进行跟踪。从采用视频跟踪获得的具有相同文本内容的文本区域序列中选取最优的文本区域,避免了后续 OCR(Optical Character Recognition)字符识别系统对所有文本区域进行处理。进一步提高了视频文本提取系统的效率。